arXiv cs.AI

CarBoN: キャリブレーテッドベストオブNサンプリングがテスト時の推論を改善

CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning

http://arxiv.org/abs/2510.15674v1


本論文では、推論時における計算リソースの増加(テスト時スケーリング)が言語モデルの性能向上に寄与することを示します。特にBest-of-$N$サンプリングの手法は、Nが増えるにつれて効果が薄れることがよくあります。この非効率を解消するために、モデルを高報酬の推論経路に適応的に修正する一般的なテスト時キャリブレーションフレームワークを導入します。このフレームワーク内で、CarBoN(キャリブレーテッドベストオブ-$N$)という二段階の手法を提案し、まず解決空間を探索した後、入力特有の温度$T$と加法シフトベクトル$oldsymbol{ u}$を用いてロジットのキャリブレーションを学習し、より信頼性の高い推論を促します。MATH-500とAIME-2024の実験において、CarBoNは同じ精度を達成するためのロールアウトの数を最大4倍削減し、固定予算内でも高い精度を得ることが確認されました。また、$T$と$oldsymbol{ u}$が出力の多様性と正確性のバランスを取る補完的な役割を果たすことを分析し、ビームサーチのような段階的サンプリング戦略にも適用できることを示しました。