この記事では、現行のコンピュータ利用エージェント(CUA)のベンチマークがタスク完了を効果的に測定する一方で、エンタープライズ展開の準備状況については限られた評価しか行えないことを指摘しています。新たに提案されたUI-CUBEは、226のタスクを含む体系的なベンチマークであり、現行CUAの根本的なアーキテクチャ制約を明らかにするために設計されています。評価は、簡単なUIインタラクション136タスク、複雑なワークフローを含む50タスク、およびエンタープライズアプリケーションシナリオ40タスクをカバーし、タスク成功の自動検証を実施します。評価結果によると、単純なタスクでの成功率は67-85%ですが、複雑なワークフローでは9-19%に急落し、これがCUAのメモリ管理や階層的計画に根本的な制約があることを示しています。UI-CUBEは、信頼性の高いワークフロー自動化ツールとして機能できない現在のCUAの現状を明らかにし、この知見が複雑なプロセス管理のための生産準備されたCUA開発に必要なアーキテクチャ的な洞察を提供します。