推論時における視覚・言語・行動モデルのアフォーダンス学習

本研究は、複雑な現実世界の制御タスクを解決するために Vision-Language-Action (VLA) モデルの能力を向上させる方法を提案します。通常、タスクがうまくいかない場合は、何が問題だったのかを反省し、戦略を変更する必要があります。提案する「LITEN（Inference-Time Executionからの学習）」は、VLAの低レベルポリシーを高レベルのVLMに接続し、過去の経験を文脈に組み込むことで、低レベルVLAのアフォーダンスや能力を学習させます。このアプローチは、計画の生成と実行を行う推論フェーズと、その実行を反省し未来の計画に役立つ結論を導き出す評価フェーズの間で繰り返されます。実験結果により、LITENは過去の経験から効果的に学習し、高いアフォーダンス指示を用いて長期タスクを達成する計画を生成できることが示されました。