本論文では、限られた視点からの3D空間関係を理解する難しさについて議論しています。従来の推論手法はテキストや2Dビジュアルキューに依存しており、3D空間想像力を必要とする特定のタスクでのパフォーマンスを制約しています。これを解決するために、著者らは3DThinkerというフレームワークを提案し、画像に埋め込まれた幾何学的情報を活用しながら、人間のように推論を行うことを可能にします。このフレームワークは、学習に3Dデータを明示的に使用せずに3Dメンタリングを可能にします。訓練は二段階で行われ、一段階目で3D基礎モデルと整合するように学習し、二段階目で結果信号に基づいて推論の全体的な軌跡を最適化します。実験では、3DThinkerが強力なベースラインを一貫して上回ることが示され、マルチモーダル推論への3D表現の統合という新たな視点を提供します。