オフポリシー影響ガイダンスによるデータ効率的RLVR

本研究では、強化学習における検証可能な報酬（RLVR）のためのデータ選択手法を提案しています。従来の手法は多くがヒューリスティックに依存しており、理論的な保証や一般化能力に欠けていました。本稿では、影響関数を用いた理論的なアプローチで各データポイントの学習目標への貢献を推定します。また、オンラインでの影響推定に必要なポリシーロールアウトの計算負担を軽減するため、事前に収集したオフライン軌道を使用したオフポリシー影響推定法を導入しています。さらに、高次元の勾配を管理するために、スパースランダム射影を用いて次元を削減し、ストレージと計算の効率を向上させます。これらの技術を活用し、影響の高いデータを選択する多段階RLフレームワークであるCROPIを開発しました。実験の結果、CROPIはトレーニングを著しく加速し、1.5Bモデルではデータの10％使用で2.66倍のステップレベル加速を達成しました。