車両の製造メーカーとモデルの認識は、インテリジェント交通システムにおいて重要ですが、従来の手法は新たにリリースされたモデルに適応するのが困難です。そこで本研究では、視覚と言語モデル(VLM)と取得拡張生成(RAG)を統合した新しいアプローチを提案します。この手法では、車両の画像を属性に変換し、それをテキスト特徴データベースと比較します。関連するエントリが取得され、説明文と組み合わされてプロンプトが形成され、言語モデルがメーカーとモデルを推測します。このデザインは、大規模な再訓練を回避し、テキストによる新しい車両の記述を追加することで迅速な更新を可能にします。実験の結果、提案手法はCLIPのベースラインに対して認識性能を約20%向上させ、スマートシティアプリケーションにおけるスケーラブルな車両モデル認識の可能性を示しました。