ColorBenchは、モバイルデバイス上でのエージェントのパフォーマンスを評価するための新しいベンチマークフレームワークです。従来のモバイルエージェント評価は、オフラインの静的ベンチマークに依存していましたが、これにより多様な解法を考慮することができず、実際のデバイスでの動的テストは再現性の観点から制約されていました。本研究では、実際のデバイスとのインタラクションで観測された有限状態をモデル化することで、動的行動の静的シミュレーションを実現しました。ColorBenchは、175のタスクを含み、各タスクには少なくとも二つの正しい経路といくつかの典型的なエラーパスが含まれています。このフレームワークにより、複雑な長期タスクにおけるエージェントの能力を多面的に評価できるようになり、既存のモデルの制限を明らかにし、エージェントのパフォーマンス向上のための技術的な提案を行っています。