CLIPPan: 無監督パンシャープニングのためのCLIPの適応的指導

本研究では、CLIPPanという無監督パンシャープニングフレームワークを提案しています。従来の監視下でのパンシャープニング技術は、シミュレートされた低解像度訓練データと実際の高解像度データの間のギャップに苦しんでいます。CLIPPanは、視覚と言語のモデルであるCLIPを指導者として活用し、高解像度でのモデル訓練を実現します。しかし、CLIPは自然画像に対するバイアスを持ち、パンシャープニングタスクの理解が不十分なため、最初にCLIPを低解像度の多スペクトル画像とパンシャープ画像を認識できるように微調整するパイプラインを導入しました。さらに、セマンティック言語制約を統合した新しい損失関数を考案し、画像の融合過程をテキストのプロンプトと一致させることで、CLIPPanは正確な指導信号を使用し、真のデータなしで学習を進めることを可能にします。実験結果では、CLIPPanが実世界のデータセットにおいて、さまざまなバックボーンでのスペクトルおよび空間の忠実性を向上させることが示され、無監督のフル解像度パンシャープニングにおいて新たな最先端を確立しました。