具現化操作のための効率的な視覚-言語-行動モデル: 系統的調査

Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey

この記事では、視覚-言語-行動（VLA）モデルに関する系統的調査を行い、ロボットの動作に自然言語指示と視覚情報をマッピングする手法を探求しています。VLAシステムはその能力にもかかわらず、大規模な計算とメモリの要求があり、リアルタイム性能が求められるエッジプラットフォームと対立するため、大きな課題に直面しています。最近の研究では、この矛盾を解決することが重要視されており、より効率的でスケーラブルなVLAシステムの開発に向けた努力が高まっています。本調査では、VLAの効率を向上させるためのアプローチを系統的にレビューし、レイテンシ、メモリ消費、トレーニングおよび推論コストの削減に重点を置いています。既存の解決策をモデルアーキテクチャ、知覚機能、行動生成、およびトレーニング/推論戦略の四つの次元に分類し、それぞれのカテゴリ内の代表的な技術をまとめています。最後に、効率的な具現化知能の進展に向けた今後の動向や課題についても議論しています。