SPEAR-1: 3D理解を通じたロボットデモ以上のスケーリング

本論文では、ロボティクス分野における「ロボティックファンデーションモデル（RFM）」の限界と、それを克服するための新しいアプローチであるSPEAR-1について説明しています。従来のRFMは、2D画像と言語のタスクに基づいて訓練されており、3次元空間での制御に必要な空間的推論能力が不足しています。著者たちは、容易に収集できる非ロボティックな画像データに3D注釈を加え、3D理解を持つ事前訓練済みのビジョン・ランゲージモデル（VLM）を強化することを提案します。この方法により、SPEAR-VLMが開発され、2D画像から3D空間内の物体の座標を推測できるようになります。その上で、SPEAR-1というロボティックファンデーションモデルを発表し、言語による指示に基づいた身体的制御と3D知覚を統合しています。SPEAR-1は、24のオープンなXエンボディメントデータセットから約4500万フレームで訓練され、従来のモデルと比較しても競争力を持っています。本モデルは公に利用可能であり、ロボットデモンストレーションを20倍少なくしても高いパフォーマンスを実現しています。