SimKO: シンプルなPass@Kポリシー最適化

本稿では、強化学習における検証可能な報酬（RLVR）が大規模言語モデル（LLM）の推論能力を向上させる一方で、探索よりも活用に偏る傾向があることが指摘されています。この問題を認識し、RLVR手法のトレーニング動態を分析することで、トップ候補への確率集中が進むことが分かりました。この集中が強まるほど、pass@K（K>1）のパフォーマンスが低下するため、この過剰集中を緩和する手法「SimKO」を提案します。SimKOは非対称的に動作し、正しい応答ではトップK候補の確率を高め、誤った応答ではトップ1候補に強いペナルティを課すことで探索を促進します。さまざまな数学および論理的推論のベンチマークにおいて、SimKOは一貫して高いpass@Kを達成し、RLVRの探索性向上に貢献しました。