TwinVLA: データ効率的な双腕操作のための双子の単腕ビジョン・言語・アクションモデル

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models

この記事では、TwinVLAというモジュラー構造を用いた双腕操作の新しいアプローチを提案しています。従来のビジョン・言語・アクションモデル（VLA）は、主に単腕データセットで訓練されており、双腕タスクに適用するには大量の双腕データとファインチューニングが必要でした。TwinVLAでは、事前学習された単腕VLAを二つ組み合わせ、双腕VLAを効率的に構築します。この手法は、既存の単一塊モデルに比べ、データ効率と性能を向上させることが確認され、実世界およびシミュレーションの多様な双腕タスクにおいて、比較対象のモデルを上回る成果を示しました。これにより、少ないデータで高性能な双腕操作を実現する新たな道筋が開かれることになります。