arXiv cs.AI

ToolPRM:関数呼び出しのための構造化出力の細粒度推論スケーリング

ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling

http://arxiv.org/abs/2510.14703v1


この記事では、ToolPRMという新しい推論スケーリングフレームワークを提案しています。これは、大規模言語モデル(LLM)が環境との相互作用において関数呼び出しを活用する際に、構造化出力の推論を最適化することを目的としています。従来の研究は主に非構造化出力に焦点を当てていたため、構造化出力に関する研究は不足していました。ToolPRMは、ファインチューニングされたビームサーチとプロセス報酬モデルを組み合わせ、各関数呼び出しの内部ステップをスコアリングします。また、ToolPRMをトレーニングするために、構造的ツール使用推論のためのステップレベルの報酬を提供するために、自動注釈付きのファインチューニングされたデータセットを構築しました。実験により、ToolPRMが従来の粗粒度モデルや結果報酬モデルに対して予測精度で優れていることが示されています。ToolPRMを用いた推論スケーリング技術は、関数呼び出しタスク全体のパフォーマンスを大幅に向上させることが確認されました。重要な原則として、「より多く探求し、より少なく保持する」ことが導き出され、構造化された関数呼び出し生成の特性の一つとして記されています。