この記事では、マルチモーダル大規模言語モデル(MLLM)の精密で文脈に基づく視覚理解を実現するための新たな手法「Grasp Any Region(GAR)」が提案されています。従来の手法は、特定の領域を孤立して理解することには長けているものの、全体の文脈を無視する傾向がありました。GARは、必要なグローバルコンテクストを利用し、複数のプロンプト間の相互作用をモデル化することで、特定の領域に関する自由形式の質問に応じた高度な構成的推論を実現します。また、GARベンチを構築し、単一領域の理解だけでなく、複数領域における相互作用や複雑な推論を測定する新たな評価基準を提供します。実験では、GARは最先端のキャプショニング能力を維持しつつ、他のモデルを上回る性能を示し、特に動画への適用可能性も高いことが示されています。