FP16によるトレーニングと推論の不一致の解消

大規模言語モデル（LLMs）の強化学習（RL）ファインチューニングは、トレーニングポリシーと推論ポリシーの間の数値的不一致によって不安定になることがよくあります。これまでの研究では、この問題を解決するためにアルゴリズムの修正や技術的調整が試みられましたが、根本的な原因は浮動小数点精度にあることが示されました。広く使用されているBF16は、その大きな動的範囲にもかかわらず、トレーニングと推論の一貫性が壊れる大きな丸め誤差を引き起こします。本研究では、FP16に戻すことでこの不一致を効果的に排除できることを示しました。この変更はシンプルで、最新のフレームワークで完全にサポートされており、数行のコード変更だけで済みます。FP16を使用することで、より安定した最適化、迅速な収束、さまざまなタスクやアルゴリズムでの強い性能が得られることが明らかになりました。これらの発見が、RLファインチューニングにおける精度のトレードオフを再考するきっかけになることを期待しています。