すべてを批評するための1つのモデル：効率的な推論による主体的なツール使用への報酬

One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning

本記事では、主体的なAIを実現するためのツール学習に特化した報酬モデル（RM）の重要性と進展を論じています。新たに提案されたToolRMは、一般的なツール使用シナリオに対応した軽量生成RMのファミリーであり、ペアごとの嗜好データを生成する独自のパイプラインを用いています。この取り組みにより、30,000例の多様でバランスの取れた批評タスクデータセットToolPref-Pairwise-30Kが構築され、強化学習のための検証可能なフィードバックが提供されています。また、評価の基準となるTRBench$_{BFCL}$も導入され、Qwen3-4B/8Bシリーズのモデルが既存の先端モデルを大幅に上回る精度を達成しています。ToolRMは自己修正や最良選択サンプリングなどの広範な批評タスクにも応用可能であり、効率性と効果を示す実験結果が報告されています。