ロボット操作のための視覚-言語-行動モデルのベンチマーク体験

Experiences from Benchmarking Vision-Language-Action Models for Robotic Manipulation

本論文では、ロボットにおける一般的な操作を実現するために期待される視覚-言語-行動（VLA）モデルのベンチマーキングに関する経験が報告されています。著者たちは、代表的な4つのVLAモデル（ACT, OpenVLA-OFT, RDT-1B, π0）を用いて、シミュレーションとALOHA Mobileプラットフォーム上で4つの操作タスクに基づく実証的な評価を行いました。評価は、成功率や成功までの時間、異なる設定における適応性、言語指示に対する従順さなど、3つの重要な次元に沿って行われました。結果、π0は出発分布外のシナリオに対して優れた適応性を示し、ACTは分布内での安定性が最も高いことがわかりました。さらに、計算コストやデータスケーリングに関する違いや、ハプニング間近のグラスプや早期リリースといった失敗モードも明らかにされました。これにより、VLAモデル選定における実用的なトレードオフが提示され、現実世界のロボット操作タスクにおけるモデルの選択と展開に向けた洞察が得られました。