本稿では、強化学習における検証可能な報酬(RLVR)が大規模言語モデル(LLM)の推論能力を向上させる一方で、探索よりも活用に偏る傾向があることが指摘されています。この問題を認識し、RLVR手法のトレーニング動態を分析することで、トップ候補への確率集中が進むことが分かりました。この集中が強まるほど、pass@K(K>1)のパフォーマンスが低下するため、この過剰集中を緩和する手法「SimKO」を提案します。SimKOは非対称的に動作し、正しい応答ではトップK候補の確率を高め、誤った応答ではトップ1候補に強いペナルティを課すことで探索を促進します。さまざまな数学および論理的推論のベンチマークにおいて、SimKOは一貫して高いpass@Kを達成し、RLVRの探索性向上に貢献しました。