VAMOS: 能力調整可能で指向性のナビゲーションのための階層的ビジョン・言語・行動モデル

VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

この記事では、VAMOSという新しい階層型ビジョン・言語・行動（VLA）モデルを提案しています。このモデルは、ロボットのナビゲーションにおける一般化能力を向上させることを目的としており、特定のロボットに固有の物理制約や能力に適応します。VAMOSは、一般的な計画者が多様なデータから学習し、専門的なモデルがロボットの物理的制約を安全かつ低コストのシミュレーションで学ぶことを可能にします。高レベルの計画者が画像空間内で候補パスを提案し、それを専門モデルが評価・再ランクするというインターフェースにより、この分離が実現されます。実験により、VAMOSは従来の最先端モデルよりも高い成功率を達成し、多様なロボット間でのナビゲーションを簡単に行えることが示されました。また、専門モデルの存在が物理的実現可能性を考慮する鍵であることも確認され、単一の計画者が異なるロボットに適用可能であることが強調されています。