arXiv cs.AI

精度を超えて: エンタープライズエージェントAIシステム評価のための多次元フレームワーク

Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems

http://arxiv.org/abs/2511.14136v1


従来のエージェントAIのベンチマークは、タスク完了の精度を主に評価するものの、コスト効率、信頼性、運用安定性といった重要な要件を見落としています。本研究では、主要な12のベンチマークの分析と最先端エージェントの実証評価を通じて、3つの根本的な制限を特定します。第一に、コスト制御評価の不在が、同等の精度を保ちながら最大50倍のコスト変動を引き起こすこと。第二に、実行数を増やすことでエージェントのパフォーマンスが60%から25%に低下する信頼性評価の不十分さ。第三に、セキュリティ、レイテンシ、ポリシー遵守といった多次元的な指標の欠如です。これらの問題を解決するために、コスト、レイテンシ、効能、保証、信頼性の5つの要素からなるCLEARフレームワークを提案します。300のエンタープライズタスクで6つの主要エージェントを評価した結果、精度のみを最適化することが、コストを考慮した代替と比べて4.4倍から10.8倍も高価になることが示されました。専門家による評価は、CLEARが生産成功を予測する上で、精度のみの評価よりも優れていることを確認しました。