本記事では、視覚-言語-アクション(VLA)モデルの展開におけるパフォーマンスの低下を解決するため、新たに提案されたVLA-Pilotという手法について解説しています。従来のファインチューニング法は、データ収集と計算コストが高く実環境では実用的でないため、著者らは追加のデータ収集やファインチューニングなしで、事前に学習されたVLAポリシーをゼロショットで展開できるプラグアンドプレイの推論時間制御法を開発しました。実験により、VLA-Pilotは二つの異なるロボット実装において、六つの実世界の操作タスクで、オフザ shelfの事前学習VLAポリシーの成功率を大幅に向上させ、多様なタスクや実装に堅牢に一般化できることが示されました。