この論文では、大規模言語モデル(LLM)の推論タスクに対する強化学習手法であるグループ相対ポリシー最適化(GRPO)を用いたファインチューニングが計算コストが高い問題を解決するための予測フレームワークを提案しています。LlamaとQwenモデル(3Bと8B)を使用した実験に基づき、モデルサイズ、初期性能、トレーニング進捗に基づく経験的スケーリング法則を導出しました。この法則は報奨の軌道を予測し、三つの一貫したトレーニング段階(緩慢な開始、急速な改善、そしてプラトー)を特定します。一定数のエポックを超えたトレーニングにはほとんど効果がないことがわかり、早期に停止することで計算リソースを大幅に削減できることが示されています。このアプローチはモデルタイプ間で一般化され、効率的なGRPOベースのファインチューニングの実用的なガイドを提供します。