局所的整合性かグローバルな妥当性か？数学領域におけるRLVRトレースの調査

強化学習を用いた検証可能な報酬（RLVR）による大規模言語モデル（LLM）のポストトレーニングが、推論タスクの精度向上に寄与することが示されていますが、既存のRLVR手法はトークンの特性を考慮せずに一律で処理しています。研究では、RLポストトレーニングが中間トークンに与える影響を探るため、GSM8Kデータセットを用いた実験を設計しました。トレースの整合性を評価するために、誤りを特定するファーストオーダーロジック（FOL）に基づく新たな尺度を導入しました。結果として、RLポストトレーニングは全体的にトレースの整合性を向上させ、特に基本モデルが失敗しRLモデルが成功する場合に顕著な効果が見られました。しかし、局所的整合性が改善されても、最終的な解答の正確性が保証されないことが明らかになりました。このため、RLによる推論改善の主張は慎重に評価されるべきであり、トレースの整合性向上が必ずしも妥当な数学的証明に繋がるわけではないと結論づけています。