arXiv cs.AI

クロスモーダルジオローカリゼーションのためのパラメータ効率的な専門家の混合フレームワーク

A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization

http://arxiv.org/abs/2510.20291v1


本研究では、RoboSense 2025 Track 4におけるクロスモーダルドローンナビゲーションの最適解を提案します。この課題では、自然言語クエリに基づいて多種のプラットフォーム(衛星、ドローン、地上)から最も関連する地理参照画像を取得します。重要な課題として、プラットフォーム間の異質性や、一般的なトレーニング記述とプラットフォーム特有のテストクエリとの間のドメインギャップがあります。これらの問題を解決するために、ドメイン整合プレプロセシングパイプラインと専門家の混合(MoE)フレームワークを導入します。具体的には、プラットフォームごとの分割や衛星データの強化を行い、LLMを用いたキャプション精緻化パイプラインを構築しました。また、BGE-M3(テキスト)とEVA-CLIP(画像)を用いて、三つのプラットフォーム専門家を訓練し、推論時にそのスコアを融合させることで、異なる視点下での堅牢なクロスモーダルジオローカリゼーションを実現しました。