大規模推論モデルの効率的なGRPOトレーニングのための予測スケーリング法則

この論文では、大規模言語モデル（LLM）の推論タスクに対する強化学習手法であるグループ相対ポリシー最適化（GRPO）を用いたファインチューニングが計算コストが高い問題を解決するための予測フレームワークを提案しています。LlamaとQwenモデル（3Bと8B）を使用した実験に基づき、モデルサイズ、初期性能、トレーニング進捗に基づく経験的スケーリング法則を導出しました。この法則は報奨の軌道を予測し、三つの一貫したトレーニング段階（緩慢な開始、急速な改善、そしてプラトー）を特定します。一定数のエポックを超えたトレーニングにはほとんど効果がないことがわかり、早期に停止することで計算リソースを大幅に削減できることが示されています。このアプローチはモデルタイプ間で一般化され、効率的なGRPOベースのファインチューニングの実用的なガイドを提供します。