Mantis: 分離された視覚的先見を持つ多目的視覚-言語-行動モデル

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

この記事では、Mantisという新しいモデルが紹介されています。このモデルは、視覚信号を活用して疎な行動監視を補完するVision-Language-Action（VLA）モデルの進展に基づいています。Mantisは、視覚的先見の予測をバックボーンから切り離す「分離視覚的先見（DVF）」のフレームワークを特徴としており、メタクエリと拡散トランスフォーマーヘッドを組み合わせています。このアプローチにより、視覚的状態の予測を簡潔にし、行動の学習を向上させます。実験結果では、人間の操作動画やロボットデモ、画像とテキストのペアで事前学習されたMantisがLIBEROベンチマークで96.7％の成功率を達成し、高速な収束性を示しました。また、指示の遵守能力や新しい指示への一般化、推論能力で従来のモデルを凌駕しています。