AsyncVLA: ビジョン-言語-アクションモデルの非同期フローマッチング

ビジョン-言語-アクション（VLA）モデルは、ジェネラリストロボットの構築において強力な手法として注目されていますが、従来のVLAモデルは同期フローマッチング（SFM）に依存しており、長期タスクでは不安定さを招く可能性があります。この記事では、非同期フローマッチングVLA（AsyncVLA）という新たなフレームワークを提案しています。AsyncVLAは、アクション生成における時間的柔軟性と自己修正能力を導入し、非均一な時間スケジュールに基づいてアクショントークンを生成します。また、信頼度評価を取り入れることで、初期生成アクションの精度を高める方法を示し、SFMとAFMの共通トレーニング手法を通じてモデルの効率性を向上させています。実験結果は、この手法がデータ効率的かつ自己修正能力を有すると証明しています。