エージェントツール呼び出しにおける一般化について: CoreThinkエージェント理由付けシステムとMAVENデータセット

On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset

本研究では、エージェントツール呼び出し環境における一般化が解決すべき重要な課題であることを示しています。大規模言語モデル（LLM）は、孤立した基準に対しては高い性能を示しますが、異なる領域での推論戦略の転送能力やツールの調整能力は十分に理解されていません。著者たちは、複数のツール呼び出し基準を用いて、最先端のLLMを大規模に評価するとともに、新しいアウトオブディストリビューション（OOD）基準MAVENを導入しました。MAVENは多段階推論をテストするために設計されており、その結果、現行モデルは50%未満の精度しか示さず、一般化のギャップが明らかになりました。これに対し、CoreThinkエージェント理由付けシステムを提案し、LLMに軽量の象徴的推論層を追加することで、構造的な分解と適応的なツール調整を実現しました。この手法は追加のトレーニングなしで全ての基準において一般化し、既存の基準に対して530%の性能向上を達成しました。