一貫性は必ずしも正しいわけではない：ポストトレーニングにおける探索の役割の理解に向けて

Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning

この記事では、基盤モデルの知識は広範であるが特定のタスクに対する推論が限られていることから、ポストトレーニング戦略の必要性が述べられています。特に、RLVRやORM/PRMといった手法が既存の推論経路を強化する一方で、新たなパターンを発見しない限り探索が役立つ理由のパラドックスについて考察されています。著者らは、簡単な推論と難しい推論を確率的遷移として捉え、ポストトレーニングのダイナミクスを多タスクツリー構造のマルコフ連鎖によって形式化しています。このモデルにより、探索が珍しいが重要な推論経路へのアクセスを保持するために不可欠である理由が説明され、経験的なシミュレーションによって理論的結果が裏付けられています。