空間から行動へ: 空間的基盤先行モデルに基づくビジョン・言語・行動モデルのグラウンディング

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本研究では、ビジョン・言語・行動（VLA）モデルが、通常2Dエンコーダに基づいて構築されているために3Dリアルワールドでの行動において制限を受けることに着目し、FALCON（From Spatial to Action）という新しいパラダイムを提案しています。FALCONは、RGB画像から強力な幾何学的先行情報を提供する空間的基盤モデルを活用し、行動ヘッドにリッチな3D空間トークンを注入します。特に、空間トークンは言語推論を保存するために、視覚・言語バックボーンに結合されるのではなく、空間強化行動ヘッドによって消費されます。これにより、空間表現、モダリティ移行能力、アライメントの制限を克服し、提案手法は複数のシミュレーションベンチマークと実世界のタスクにおいて最先端の性能を達成しました。