PROMISE: 欠落するモダリティに対する頑健なクロスモーダル表現のためのプロンプト・アテンティブ階層的コントラスト学習

PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities

本記事では、欠落するモダリティに対処し、頑健なクロスモーダル表現を可能にする新しいフレームワーク「PROMISE」を提案しています。多モダリティモデルは自然言語と視覚情報を統合し、表現モデルの一般化を大幅に改善しましたが、現実世界では特定のモダリティが欠落することでその効果が低下します。この問題は、完全な多モダルデータと不完全なモダリティシナリオ間の表現学習の不一致が主な原因です。従来のアプローチは単純な生成方法に依存しており、クロスモーダルの一貫性を十分に保持できません。PROMISEは、階層的コントラスト学習の枠組みにモダリティプロンプト学習を組み込み、特別に設計されたプロンプトアテンションメカニズムを活用することで、欠落したモダリティのシナリオにおいても頑健で一貫した表現を生み出します。実験結果により、PROMISEは従来の最先端技術に対して優れたパフォーマンスを示すことが実証されました。