Nの世界の最適化：max@k最適化を通じて強化学習とBest-of-Nサンプリングを調整する

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

この記事では、強化学習の強化を図るための新しいアプローチ、特にBest-of-Nサンプリングとの整合性を取りながらmax@kという指標を最適化する手法について論じています。特に、数学やプログラミングの分野における検証可能な報酬を用いた強化学習が、大規模言語モデルの推論と問題解決能力を大幅に向上させることを報告しています。しかし、単一生成問題の解決には成功したものの、強化学習の微調整がモデルの探査能力を損なう可能性があり、これが多様性の低下やBest-of-Nサンプリングのパフォーマンス低下につながることがあります。本研究では、biasedなオフポリシーの更新を通じてmax@k指標を効果的に最適化し、モデルをBest-of-N推論戦略に整合させることを実証しています。