推論を学ぶためには推論が必要: 弱ベースモデルにおけるラベルフリーRLの限界

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

本稿では、最近の大規模言語モデルの進展を背景に、外部監視なしで推論能力を向上させるためのラベルフリー強化学習（RL）手法の効果を調査しています。特に、限られた推論能力を持つ小型モデルにおけるラベルフリーRLの一般化可能性については未検証でした。0.5Bから7Bパラメータの異なるモデルサイズにおける性能を体系的に分析した結果、ラベルフリーRLはベースモデルの事前に存在する推論能力に大きく依存しており、特に弱いモデルではパフォーマンスが基準を下回ることが多いことが明らかになりました。小型モデルは十分に長いまたは多様な推論を生成できず、トレーニングデータの難易度が成功に大きく影響を与えることが分かりました。これらの課題に対処するため、カリキュラム学習を利用してトレーニング中に徐々に難しい問題を導入する手法を提案し、すべてのモデルサイズと推論能力において安定した改善を示しています。