arXiv cs.AI

D-GARA: 現実の異常におけるGUIエージェントの堅牢性のための動的ベンチマーキングフレームワーク

D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies

http://arxiv.org/abs/2511.16590v1


本論文では、GUI(Graphical User Interface)エージェントの堅牢性を評価するための動的なベンチマーキングフレームワーク「D-GARA」を提案しています。従来の静的で理想化されたデータセットやベンチマークでは、現実の環境における複雑さや予測不可能性、特に異常の存在を反映できていません。D-GARAは、許可ダイアログやバッテリー警告、更新プロンプトなど、GUIエージェントが直面する現実的な異常の多様なセットを導入しています。これに基づいて、一般的に使用されるAndroidアプリケーションに異常を埋め込んだベンチマークを構築・注釈付けし、広範なコミュニティ研究を支援しています。実験により、異常の多い環境に晒された際の最先端のGUIエージェントのパフォーマンスが大幅に低下することが示され、堅牢性を意識した学習の必要性が強調されています。D-GARAはモジュラーで拡張可能であり、新しいタスクや異常の種類、インタラクションシナリオの統合を容易に行えます。