TetraJet-v2: 振動抑制と外れ値制御を用いた大規模言語モデルの正確なNVFP4トレーニング

TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control

TetraJet-v2は、大規模言語モデル（LLM）のトレーニングにおいて、低精度の完全量子化トレーニング（FQT）を活用する新しい手法です。従来の方法では、4ビット形式のNVFP4を用いたトレーニングは効率的であるものの、ほぼ損失のないトレーニングを実現することが困難でした。著者らは、NVFP4を使用して活性化、重み、および勾配を処理するエンドツーエンドの4ビットFQTメソッドを提案します。本研究では、低精度トレーニングの障害となる重みの振動と外れ値を特定し、これらを解決するための手法を提案しています。具体的には、無偏双ブロック量子化、振動抑制のためのOsciResetアルゴリズム、および外れ値精度保持のためのOutControlアルゴリズムを導入しています。TetraJet-v2は、370Mまでのさまざまなモデルサイズと200Bトークンまでのデータサイズでの事前学習において、従来のFP4トレーニング手法を一貫して上回り、完全精度トレーニングとのパフォーマンスギャップを平均51.3％削減しています。