LLM推論の内部確率と自己整合性を橋渡しする理論的研究

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

本論文では、大規模言語モデル（LLM）の推論性能を向上させるためのテスト時スケーリング手法に関する理論的枠組みを初めて提供しています。特に、自己整合性と困惑度に基づく2つの主要なパラダイムを分析し、自己整合性は高い推定誤差を抱え、困惑度はモデル誤差や推定誤差の収束の劣化を招くことを明らかにしました。これらの制約を克服するために、RPCと呼ばれるハイブリッド手法を導入し、自己整合性と困惑度の利点を組み合わせる「困惑度整合性」と低確率の推論経路を除去する「推論プルーニング」を活用します。RPCは、推論誤差の収束率を指数関数まで向上させ、信頼性を高めつつサンプリングコストも50%削減します。実験結果は7つのベンチマークデータセットでRPCの有望な性能を確認しています。