GUIナレッジベンチ: GUIタスクにおけるVLMの失敗の背後にある知識ギャップの明示

GUI Knowledge Bench: Revealing the Knowledge Gap Behind VLM Failures in GUI Tasks

この記事では、視覚言語モデル（VLM）がグラフィカルユーザーインターフェース（GUI）タスクの自動化において進展を見せているものの、依然として人間に劣る理由について考察しています。この知識ギャップは、既存のトレーニング手法だけでは十分に解消できないコアとなるGUI知識の欠如に起因していると仮定しています。GUIタスクの実行における一般的な失敗パターンを分析し、GUI知識をインターフェース認識、インタラクション予測、指示理解の三つの次元に整理しました。また、292のアプリケーションをカバーするマルチプラットフォーム対応のGUIナレッジベンチを導入し、現在のVLMはウィジェット機能を特定できても、システム状態の認識やアクション予測、タスク完了の検証に苦労していることを示しました。実世界のGUIタスクでの実験により、GUI知識とタスク成功の関連性が確認され、GUI知識を評価するための構造化されたフレームワークの重要性を強調しています。