GroundedPRM: ツリーガイドと忠実度を考慮したプロセス報酬モデルによるステップレベル推論

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

GroundedPRMは、プロセス報酬モデル（PRM）を用いて大規模言語モデル（LLM）の多段階推論を改善するためのフレームワークです。従来の方法は、コストの高い人間によるラベリングやLLMベースの自己評価に依存しており、これが誤認識や低い忠実度を引き起こしていました。GroundedPRMは、モンテカルロ木探索（MCTS）を通じて構造化された推論パスを構築し、外部ツールを使って各中間ステップの検証を行うことでこの問題に対処します。報酬信号は解釈可能性を高めるために整形され、最終的に自動ラベリングされたわずか40Kサンプルで効果的に学習されます。著者らは、GroundedPRMが従来の方法よりも平均性能を最大26%向上させ、信頼性の高いプロセスレベルの推論を提供できることを示しています。