行動クローンのための意味的-物理的アラインメントによる連続的ビジョン-言語-行動共同学習

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning

本論文では、行動クローン（BC）の性能向上における中心的課題である、連続したアクション決定における蓄積誤差を克服するための新たなフレームワーク「Continuous vision-language-action Co-Learning with Semantic-Physical Alignment（CCoL）」を提案します。CCoLは、視覚、言語、固有受容器入力を通じて連続的な共同学習を行い、安定したアクション実行軌道を生成します。この手法は、言語の意味を視覚運動表現に結びつける双方向のクロスアテンションを活用し、行動生成のための文脈情報を学習します。実験結果に基づき、CCoLは3つのシミュレーション環境で平均8.0%の性能向上を実現し、特に人間のデモに基づく両手挿入タスクでは最大19.2%の改善を記録しました。また、7自由度ロボットによる実世界テストでも、未見の対象物状態に対する汎化能力が確認されました。