CLIPとプロンプト学習を用いた数ショットリモートセンシング画像シーン分類

Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning

リモートセンシングの分野では、シーン分類のために深層学習がますます重要になっていますが、ラベル付きデータの不足や多様な地理的・センサー領域における注釈のコストがパフォーマンスを制約しています。最近のビジョン・ランゲージモデルであるCLIPは、視覚とテキストのモダリティを整合させてスケールで移転可能な表現を学ぶことに成功していますが、リモートセンシングへの直接的な応用はドメインギャップのために最適ではありません。この研究では、少ないデータでのリモートセンシング画像のシーン分類に対する軽量で効率的な適応戦略として、プロンプト学習を体系的に探ります。具体的には、コンテキスト最適化や条件付きコンテキスト最適化、多モーダルプロンプト学習、そして自己調整制約を用いたプロンプトなど、様々な代表的手法を評価しました。実験の結果、プロンプト学習は基準手法に比べて一貫して優れた性能を示し、特に自己調整制約を用いたプロンプトは堅牢なクロスドメイン性能を実現しました。この研究は、衛星および空中画像におけるドメインギャップを埋めるためのスケーラブルで効率的なソリューションとしてのプロンプト学習の可能性を強調しています。