VCOREは、長い思考連鎖(CoT)経路に対する監視学習(SFT)の効果を高めるために提案された手法です。従来の交差エントロピー損失は、全てのトークンを同等に扱い、推論経路での多様な貢献を無視しています。この均一な扱いが、監視の誤配分や複雑な推論タスクでの弱い一般化につながっています。VCOREは、コスト最適化問題としてCoT監視を再構築し、トークンごとに適応的な監視配分を可能にします。実験結果は、VCOREが既存のトークン重み付け手法に対して安定してパフォーマンスを上回ることを示しており、数学的およびコーディングベンチマークにおいて大幅なパフォーマンス向上を達成しました。また、VCOREは強化学習の初期化にも効果的であり、LLMの推論能力向上の基盤を提供します。