LLMによる数学的推論のためのPRMガイド付き木探索の限界

本研究では、大規模言語モデル（LLM）における数学的推論に対して、連鎖的思考誘導法（Best-of-N方式）が一般的に用いられていますが、その線形構造が複雑な問題解決の分岐・探索的特性を捉えられないことを指摘します。そこで、プロセス報酬モデル（PRM）スコアを最大化するための適応アルゴリズムを提案し、PRMガイド付き木探索が数学的推論を改善できるかを調査しました。23の多様な数学問題を用いた実験では、PRMガイド付き木探索がBoNよりも統計的に有意な改善を示さず、モンテカルロ木探索やビーム探索が他のPRMガイド付き手法を上回ることが示されました。結果として、PRMの状態値近似が不正確で、推論深度が増すにつれてその信頼性が低下することが判明しました。このため、木探索がLLMの数学的推論を効果的に強化するためには、異なる報酬モデルが必要であると結論付けています。