arXiv cs.AI

GUI-Rise: GUIナビゲーションのための構造化推論と履歴要約

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

http://arxiv.org/abs/2510.27210v1


本論文では、GUIナビゲーションエージェントのための新たなフレームワーク「GUI-Rise」を提案します。従来のマルチモーダル大規模言語モデル(MLLM)は、ドメイン間の一般化能力や履歴の活用において限界がありました。GUI-Riseは、構造化推論、アクション予測、履歴要約を統合し、進捗推定と意思決定に基づく一貫した思考の連鎖(Chain-of-Thought)を生成します。これにより即時のアクション予測や未来のステップ向けの要約が可能となります。このフレームワークで訓練されたGUIエージェントは、擬似ラベル付きの軌跡に対する教師ありファインチューニングと、履歴を意識した報酬を使用した強化学習を通じて、標準ベンチマークで最新の結果を示しました。特に異なるドメインにおいても優れたパフォーマンスを発揮し、様々なGUIナビゲーションタスクに対する堅牢な推論能力と一般化能力が検証されました。