arXiv cs.AI

AndroidControl-Curated: ベンチマークの浄化を通じてGUIエージェントの真の潜在能力を明らかにする

AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification

http://arxiv.org/abs/2510.18488v1


本記事では、SiriやGoogleアシスタントのようなデバイス内バーチャルアシスタントの限界と、APIに依存しないGUIエージェントの可能性について述べています。従来のベンチマーク(AndroidControl)では、GUIエージェントのパフォーマンスが過小評価されており、実世界での利用には不十分でした。研究者たちは、その原因がモデルだけでなく、ベンチマーク自体にあることを特定し、AndroidControlを改善したAndroidControl-Curatedを導入。この新しいベンチマークでは、最新のモデルが複雑なタスクに対して75%に近い成功率を達成することが示され、実用的なデプロイに近い可能性を示唆しています。さらに、低コストで小型なMagma-R1-3Bモデルが開発され、これもQQwen3-VL-235Bに匹敵するパフォーマンスを提供します。この研究成果は、強化されたベンチマークを広く利用することで、バーチャルアシスタントの発展を促進することを目指しています。