記事では、マルチモーダル大規模言語モデル(MLLM)が視覚と言語のタスクにおいて著しい進展を遂げているにもかかわらず、空間理解においてはまだ課題が残されていることが述べられています。既存の空間MLLMは、明示的な3D入力や特定のアーキテクチャに依存する場合が多く、大規模データセットやスパースな監視に制約されています。これらの限界を克服するために、研究者たちはSpatialThinkerを提案しています。このモデルは、強化学習(RL)を用いて、構造化された空間基盤を統合し、多段階の推論を実現しています。SpatialThinkerは、タスクに関連するオブジェクトと空間関係のシーングラフを構築し、密な空間報酬を通じて人間のような空間知覚をシミュレートします。SpatialThinkerは、空間VQAデータセットSTVQA-7Kの生成や、空間基盤を強化するマルチオブジェクティブな密な空間報酬を用いたオンラインRLの利用において2つの重要な貢献を果たします。このモデルは、空間理解と現実世界のVQAベンチマークで優れたパフォーマンスを示し、制限されたデータでの robustな3D空間理解が可能であることを示しています。