検証可能な報酬からの強化学習のためのマスク及び再配置自己監督

Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards

本論文では、検証可能な報酬からの強化学習における新しい手法「MR-RLVR（マスクと再配置RLVR）」を提案しています。従来の大規模言語モデル（LLM）は数学的推論において改善されているものの、特に定理証明においてはスケーラビリティに限界があります。最終的な答えは直接確認するのが難しく、中間的な推論が重要ですが、トークンレベルの自己教師あり学習はしばしば記憶に依存しがちです。MR-RLVRは、マスクした後に補填し、ステップを再配置することで中間推論から学習可能な信号を抽出するプロセスレベルの自己監督報酬を構築します。提案手法を2段階で訓練し、様々な数学的データセットで評価を行った結果、元のRLVRと比較して、結果の確認が可能な状況下でのパフォーマンス向上が見られました。