LLM推論のためのオンラインSFT：報酬なしでの自己調整の驚異的な効果

Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards

本稿では、大規模言語モデル（LLM）の推論のためのオンライン監督型ファインチューニング（OSFT）手法を提案します。この手法では、モデル自体が応答を生成し、その自己生成データに基づいて即座にファインチューニングが行われます。OSFTは報酬を必要とせず、デフォルトでは1回のローアウトのみを使用するため、LLM推論の効率的なトレーニング戦略です。実験結果により、OSFTは挑戦的な数学的推論タスクにおいて、強力な強化学習（RLVR）手法と同等の性能を達成します。さらに、アブレーションスタディにより、OSFTの効率性と堅牢性が示されました。OSFTの主要なメカニズムは、事前学習から学んだモデル自身の潜在的な知識を活用することで、推論能力の向上を促進する点にあります。OSFTは、より複雑な報酬ベースのトレーニング手法に代わる効率的で有望な代替手段を提供します。