arXiv cs.AI

UrbanVLA: 都市マイクロモビリティのためのビジョン・言語・アクションモデル

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

http://arxiv.org/abs/2510.23576v1


UrbanVLAは、都市環境におけるナビゲーションを最適化するためのモデルです。従来のナビゲーション方法は短距離や制御可能な状況に適しているため、大規模で動的な都市部での使用には課題がありました。この新しいフレームワークは、低レベルのナビゲーション能力(ポイントゴール到達や障害物回避)と高レベルの能力(ルートと視覚の整合性)を統合し、ルート条件に基づいたナビゲーションを実現します。UrbanVLAは、シミュレーション環境でのスーパーバイズド・ファインチューニングと、シミュレーションと実世界データの混合による強化学習を経て、動的な都市環境での安全性と適応性を向上させます。実験結果は、UrbanVLAがMetaUrbanでのSocialNavタスクにおいて、既存の強力なベースラインを55%以上上回ることを示しています。このモデルは、大規模都市環境に対応し、現実の不確実性にも強いナビゲーションを実現します。