FP8-Flow-MoE: ダブル量子化エラーのないキャスティングフリーFP8レシピ

FP8-Flow-MoEは、大規模なMixture-of-Experts（MoE）モデルのトレーニングにおける計算要求とメモリ要求の問題に対処するための新しい手法を提供します。従来の低精度トレーニングでは、BF16主導のデータフローが用いられ、頻繁に量子化と逆量子化が行われるため、FP8の理論的効率が損なわれていました。FP8-Flow-MoEでは、スケーリングを考慮した転置と融合FP8演算子を用いることで、データフローをFP8に一貫させ、キャスト操作の回数を12から2に削減しました。671BパラメータのMoEモデルでの評価により、BF16や従来のFP8と比較して21%のスループット向上と16.5 GBのメモリ削減を実現し、安定した収束を維持できることが示されました。この手法は、TransformerEngineやMegatron-LMと互換性があり、まもなくオープンソース化される予定です。