ポリシーを超えて考える：文脈内指導によるポリシー最適化

本論文では、強化学習の分野における新しいアプローチである「文脈内指導によるポリシー最適化（ICPO）」を提案します。従来の手法は、ポリシーの分布に限定されたオンポリシーのロールアウトに依存しており、探索が制限されていました。これに対し、ICPOは、既存のデータセットを利用して専門家の指導を可能にし、探索を拡大します。具体的には、ミックスドポリシーGRPOと呼ばれる手法を用いて、現在のポリシーの分布を超える探索を可能にします。また、信頼性の低いオフポリシーの軌道をフィルタリングするために専門家領域拒否サンプリングを統合し、初期の専門家の指導と後の自主的改善をバランスさせるアンネイルド専門家ボーナス報酬のシェーピングを導入します。実験結果は、ICPOが数学的推論のベンチマークで強化学習の性能とトレーニングの安定性を一貫して向上させることを示しており、スケーラブルで効果的な強化学習の枠組みを提供しています。