DigiData: 汎用モバイル制御エージェントの訓練と評価

本論文では、汎用モバイル制御エージェントのための大規模で高品質な多様なデータセット「DigiData」を紹介します。このデータセットは、従来の未構造のインタラクションから目標を抽出するのではなく、アプリの機能を包括的に探索することによって精密に構築されています。これにより、目標の多様性と複雑性が向上しています。さらに、DigiData-Benchというベンチマークを通じて、実世界の複雑なタスクにおけるモバイル制御エージェントの評価手法を提示しています。一般的なステップ精度のメトリックがモバイル制御エージェントの評価において不十分であることを示し、動的評価プロトコルとAIによる評価方法を提案しています。これにより、エージェントのパフォーマンス向上を促進し、人とデバイス間のインタラクションをより直感的かつ効果的なものにすることを目指しています。