実生活の人間活動ビデオを用いたロボット操作のためのスケーラブルな視覚・言語・行動モデルの事前訓練

Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

本論文では、非スクリプト形式の実生活における人間の手の活動ビデオを使用して、ロボット操作のための視覚・言語・行動（VLA）モデルの事前訓練に関する新しいアプローチを提案しています。人間の手を巧妙なロボットのエンドエフェクタとして扱い、注釈なしの「実世界」動画を既存のロボットVLA訓練データと完全に整合したデータ形式に変換する方法を示します。この変換は、任意の人間の手の動画に対して攻撃的な人間活動の自動分析手法を開発することによって達成されます。この手法は、原子レベルの手の活動セグメントとその言語記述を生成し、各セグメントにフレームごとの3D手の動きとカメラの動きを付随させます。我々は、1百万件のエピソードと2600万フレームを含む手のVLA訓練データセットを作成しました。このモデルは、見たことのない現実世界の観察に対して強力なゼロショット能力を示し、少量の実ロボットアクションデータでの微調整によってタスク成功率と新しい物体への一般化が大幅に改善されます。本研究は、スケーラブルなVLA事前訓練の確固たる基盤を築き、ロボットの真に汎用的な具現化知能の実現に向けた一歩を踏み出しています。