RLVRのためのPass@kメトリック: 探索の診断ツールであり、最適化目標ではない

この記事では、Large Language Models（LLMs）の多段階推論能力の評価と向上を目的としたPass@kメトリックについて論じています。このメトリックは、k回の独立サンプル中に少なくとも1つの正解を得る確率を測定し、直感的な魅力があるため、強化学習の評価基準および最適化目標として広く採用されています。しかし著者は、Pass@kメトリックが実際には単純なPass@1目標の再重み付けに過ぎず、特に探索が重要な状況では学習信号がほとんど得られないことを示しました。また、政策が確率質量を集中させるにつれて、Pass@kとPass@1の差が縮まる「探索崩壊」のダイナミクスも分析しました。最終的には、Pass@kが有用な診断ツールである一方で、最適化の直接的な目標には不適切であり、効果的な探索を促進するメカニズムが強化学習においてより効果的な道を提供する可能性があると結論づけています。