arXiv cs.AI

実体のギャップを埋める:ソフトロボットにおける視覚-言語-行動モデルの展開

Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots

http://arxiv.org/abs/2510.17369v1


この研究は、ソフトロボットに視覚-言語-行動(VLA)モデルを展開し、人間とロボットの安全な相互作用を実現することを目的としています。現在のロボットシステムは、人間中心の非構造的環境での運用が求められていますが、VLAモデルは従来の剛性のあるマニピュレータにのみ適用されてきました。本研究では、ソフトな連続マニピュレータ上でのVLAモデルの適用を示し、特定の微調整を行うことで、ソフトロボットが従来の剛性ロボットと同等のパフォーマンスを発揮できることを証明しています。この研究は、実体のギャップを埋めるために微調整が必要であり、ソフトロボットとVLAモデルの統合が安全で柔軟な人間共有環境におけるAIを実現することを強調しています。