LLM推論のための自己対戦の理解へ向けて

大規模言語モデル（LLM）の推論における最近の進展は、検証可能な報酬を用いた強化学習（RLVR）によって促進されています。この研究では、自己対戦というプロセスを通じて、モデルが自己生成した問題を解決することで改善する様子が分析されています。自己対戦は、優れたドメイン内外の成果を示していますが、その背後にあるメカニズムはよくわかっていません。本研究では、Absolute Zero Reasonerを用いて自己対戦のトレーニングダイナミクスを分析し、RLVRや教師あり微調整（SFT）との比較を行いました。パラメータの更新のスパース性、トークン分布のエントロピーのダイナミクス、代替的な提案者報酬関数に注目し、pass@k評価を用いて推論性能との関連性を明らかにしました。これにより、自己対戦が他のトレーニング戦略とどのように異なるか、またその限界や今後の改善方向が示されています。