arXiv cs.AI

MEGA-GUI: GUI要素のための多段階強化グラウンディングエージェント

MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements

http://arxiv.org/abs/2511.13087v1


MEGA-GUIは、自然言語の指示を画面座標にマッピングするための多段階フレームワークです。このシステムは、粗い領域選択と細かな要素グラウンディングを分け、専用の視覚と言語のエージェントによって調整されます。MEGA-GUIでは、双方向ROIズームアルゴリズムを利用して空間的な希釈を軽減し、文脈に応じた書き換えエージェントが意味のあいまいさを低減します。このフレームワークは、視覚の異なるスケールでのモデルの強みと弱みを示し、モジュール構造を活用することで、一体型アプローチと比べて常に高い精度を達成します。MEGA-GUIは、視覚的に密なScreenSpot-Proベンチマークで73.18%、意味的に複雑なOSWorld-Gベンチマークで68.63%の精度を達成しており、既存の結果を上回っています。