この記事では、3D対応の大規模言語モデル(3D-LLMs)が語彙理解と視覚要素の結合において限界があることが述べられています。その原因は、空間理解よりも言語推論に焦点を当てた訓練データの不足にあります。著者たちは、この問題を解決するために3Dシーン編集を提案し、精密な視覚的反実仮想を生成することでグラウンディングのバイアスを軽減します。具体的には、エラーを特定し、最小限のシーン編集(色の変更や位置の再設定など)を行う「DEER-3D」というフレームワークを導入しています。この方法により、3D-LLMの性能を向上させるために必要な反実仮想指導を提供し、モデルの微調整を行います。実験結果は、多数のベンチマークにおいて、対象を絞ったエラー駆動型シーン編集が効果的であることを示しています。