arXiv cs.LG

LLM推論のためのオンラインSFT:報酬なしでの自己調整の驚異的な効果

Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards

http://arxiv.org/abs/2510.18814v1


本稿では、大規模言語モデル(LLM)の推論のためのオンライン監督型ファインチューニング(OSFT)手法を提案します。この手法では、モデル自体が応答を生成し、その自己生成データに基づいて即座にファインチューニングが行われます。OSFTは報酬を必要とせず、デフォルトでは1回のローアウトのみを使用するため、LLM推論の効率的なトレーニング戦略です。実験結果により、OSFTは挑戦的な数学的推論タスクにおいて、強力な強化学習(RLVR)手法と同等の性能を達成します。さらに、アブレーションスタディにより、OSFTの効率性と堅牢性が示されました。OSFTの主要なメカニズムは、事前学習から学んだモデル自身の潜在的な知識を活用することで、推論能力の向上を促進する点にあります。OSFTは、より複雑な報酬ベースのトレーニング手法に代わる効率的で有望な代替手段を提供します。