arXiv cs.AI

予算を意識したテスト時スケーリングによる識別的検証

Budget-aware Test-time Scaling via Discriminative Verification

http://arxiv.org/abs/2510.14913v1


本研究では、大規模言語モデルの複雑な推論タスクにおける性能向上を図るためのテスト時スケーリングの新しいアプローチである、予算を意識した識別的検証に焦点を当てています。従来の方法は生成的検証器を用い、候補の中から最適解を選定することで実現されていましたが、計算コストが高いため実用性が限られていました。本稿では、識別的検証と自己整合性を組み合わせたハイブリッドアプローチの効果を実証し、固定された計算予算内でこれが生成的検証を大幅に上回る結果を示すことに成功しました。特に、AIME2025データセットで最大15.3%の精度向上を達成しました。この発見により、実用的なアプリケーションにおいて、予算を意識したスケーリングは、自己整合性の単なる改善にとどまらず、コストのかかる生成技術にとって効果的かつ効率的な選択肢であることが示されました。