arXiv cs.AI

距離注釈付き交通認知質問応答(DTPQA)

Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)

http://arxiv.org/abs/2511.13397v1


この記事は、「距離注釈付き交通認知質問応答(DTPQA)」と呼ばれる視覚質問応答(VQA)のベンチマークについて紹介している。このDTPQAは、自動運転における視覚と言語モデル(VLM)の知覚能力を評価するために設計されており、特に複雑な交通状況を理解する能力が重要であることを強調している。DTPQAは、シミュレーターを使用して作成された合成ベンチマーク(DTP-Synthetic)と、実際の交通シーンの画像に基づいた現実世界のベンチマーク(DTP-Real)から構成されている。各サンプルには、画像、質問、正解、および対象物までの距離が含まれており、この距離情報を用いることで、物体の距離が増すにつれてVLMの性能がどのように低下するかを分析できる。