RLVE：適応可能な検証環境を用いた言語モデルの強化学習をスケーリングアップする手法

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

本記事では、適応可能な検証環境を使用した強化学習（RL）手法であるRLVEを紹介します。この手法は、問題を生成し、アルゴリズムによって検証可能な報酬を提供する環境を通じて、言語モデル（LM）向けの強化学習を拡張します。RLVEはトレーニングの進行に合わせて問題の難易度分布を動的に適応させることができ、静的なデータ分布が難易度が高すぎるまたは低すぎる場合に学習信号が消失する問題を解決します。 RLVE-Gymという400の検証可能な環境からなる大規模なスイートを開発し、環境のスケーリングが推論能力を向上させることを実証しました。RLVE-Gym内で400の環境で共同トレーニングを行うことで、6つの推論ベンチマークで平均3.37%の改善が得られ、従来のRLトレーニングと比較しても顕著な成果が確認されました。