代理報酬最大化としてのアドバンテージシェーピング：Pass@Kポリシー勾配の統一

Advantage Shaping as Surrogate Reward Maximization: Unifying Pass@K Policy Gradients

本稿では、強化学習におけるPass@K目標向けのポリシー勾配最適化に関連する二つのアプローチ、具体的には(1) 直接的なREINFORCE法と(2) GRPOを直接修正するアドバンテージシェーピング技術が似ていることを示しています。既存のアドバンテージシェーピングアルゴリズムを逆工学的に解析することで、これらが実質的に代理報酬を最適化していることが明らかになりました。特に、「ハード例の強調付け」に対する実質的な修正は報酬レベルの正則化とみなされます。また、代理報酬目標から出発して、既存のアドバンテージシェーピング手法と新しい手法を導出する単純な手法も提供します。この視点は、Pass@Kの元々のモチベーションを超えたRLVRポリシー勾配最適化の新たな見地を提供します。