本記事では、検証可能な報酬を用いた強化学習(RLVR)の新たな手法、縮小ベースラインについて述べられています。RLVRは、ポリシー勾配法(GRPOなど)を利用して大規模な推論モデルを後処理するための強力なパラダイムとして注目されています。訓練を安定化させるために、従来の手法では各プロンプトに対して経験的平均を引いて報酬を中心化していましたが、これは統計的にコントロール変数として機能し、ポリシー勾配推定量の分散を減少させます。本研究では、スティーンの逆説に着想を得て、各プロンプトとプロンプト全体の平均を組み合わせた縮小推定量を提案し、特に低生成状況においてプロンプトごとの平均推定の精度向上を図ります。理論的に、提案する縮小ベースラインは、分散が低いポリシー勾配推定量を保証し、実証的には従来の平均基準に比べて安定して優れた性能を発揮しています。