ツールデカスロン：多様で現実的な長期タスク実行のための言語エージェントのベンチマーク

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

「ツールデカスロン」は、複雑で多段階のワークフローを処理する要件がある現実世界の言語エージェントを評価するための新しいベンチマークを提供します。これまでのベンチマークは、狭い分野や簡略化されたタスクに焦点を当てることが多く、現実的なパフォーマンスを測るためには不十分でした。本研究では、32のソフトウェアアプリケーションと604のツールを含む多様なツールを用い、実際の環境設定と信頼性のある実行ベースの評価を行います。具体的には、GoogleカレンダーやWooCommerceなどの一般的なプラットフォームから、KubernetesやBigQueryなどの専門的なものまでをカバーし、実際の環境状態を提供します。タスクは合計108件で、平均20回のやり取りが必要です。最新のモデルの評価結果も示されており、最高の成功率は38.6%にとどまっています。このベンチマークが、現実の長期的なタスク実行のためのより能力の高い言語エージェントの開発を促進することが期待されます。