タスク特化型プロンプティングと空間推論による自律運転のための視覚-言語モデルの強化

Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning

この記事は、2025年のIROSにおけるRoboSense Challengeにおける我々のソリューションを紹介しています。この技術報告では、自律運転のシーン理解を評価するための視覚-言語モデル（VLM）を用いた手法が提案されています。提案されたフレームワークは四つの主要な要素から構成されています。まず、Mixture-of-Promptsルーターを使用して質問を分類し、タスク特化型の専門プロンプトに振り分け、多様な質問タイプ間の干渉を排除します。次に、タスク特有のプロンプトは明示的な座標系や空間推論のルールを組み込み、それぞれのタスクに応じた短い例を提供します。さらに、視覚的アセンブリモジュールが画像を要求に基づいて組み立てます。最後に、モデルの推論パラメータをタスクごとに設定し、出力品質を最適化します。このアプローチはQwen2.5-VL-72Bで実装され、洗浄データ段階で70.87%、破損データ段階で72.85%の精度を達成しています。この成果は、自律運転タスクにおけるVLMの性能を大幅に向上させることを示しています。