戦略的介入による効率的思考空間探査

この記事では、大規模言語モデル（LLM）が示す推論能力の改善に焦点を当て、その推論時間における拡張方法の非効率性を指摘しています。従来の方法では、全ての可能な選択肢からサンプリングするために膨大な計算コストがかかっていました。著者たちは、次のトークン予測が多くの場合、実際の結果とよく一致するが、いくつかの重要なトークンが逸脱を引き起こすことに着目し、新たな「Hint-Practice Reasoning」(HPR)フレームワークを提案しています。これは、強力なLLMが重要な決定点で確率的な指導を行う「hinter」と、主要な推論ステップを実行する効率的な小型モデル「practitioner」で構成されています。このフレームワークは、推論経路の不一致を動的に特定する「Distributional Inconsistency Reduction」（DIR）という新しいメトリクスを用いて、成功の可能性が高い経路を再調整し、低確率ブランチを低下させることを目指しています。実験結果は、HPRがサンプリング効率と精度のトレードオフにおいて最先端の性能を示すことを実証しています。