UrbanVLA: 都市マイクロモビリティのためのビジョン・言語・アクションモデル

UrbanVLAは、都市環境におけるナビゲーションを最適化するためのモデルです。従来のナビゲーション方法は短距離や制御可能な状況に適しているため、大規模で動的な都市部での使用には課題がありました。この新しいフレームワークは、低レベルのナビゲーション能力（ポイントゴール到達や障害物回避）と高レベルの能力（ルートと視覚の整合性）を統合し、ルート条件に基づいたナビゲーションを実現します。UrbanVLAは、シミュレーション環境でのスーパーバイズド・ファインチューニングと、シミュレーションと実世界データの混合による強化学習を経て、動的な都市環境での安全性と適応性を向上させます。実験結果は、UrbanVLAがMetaUrbanでのSocialNavタスクにおいて、既存の強力なベースラインを55%以上上回ることを示しています。このモデルは、大規模都市環境に対応し、現実の不確実性にも強いナビゲーションを実現します。