この記事では、ToolScopeというエージェントフレームワークの提案が行われています。このフレームワークは、視覚的コンテキストを考慮しつつ、外部ツールとの統合を通じて多様な情報を効果的に利用することを目的としています。ToolScopeは、グローバルナビゲーター、エージェント実行者、レスポンス合成器の3つの主要なコンポーネントから成り立っています。グローバルナビゲーターは全体的な戦略指針を提供し、エージェント実行者は外部ツールを活用してローカルな知覚を強化します。最後に、レスポンス合成器は推論過程を整理し、ユーザーにとってわかりやすい出力を生成します。本研究では、ToolScopeが4つの視覚質問応答(VQA)ベンチマークにおいて強力な一般化能力を示し、平均で6.69%の性能向上を達成したことが評価されています。