CovMatch: クロス共分散ガイドによるマルチモーダルデータセット蒸留と学習可能なテキストエンコーダー

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

CovMatchは、マルチモーダルデータセットの蒸留を目的とした新しいフレームワークです。このフレームワークは、画像とテキストのペアを効率的に合成し、大規模な視覚と言語モデルの効率的なトレーニングを実現します。従来の手法では、金標準的なテキストエンコーダーを固定し、画像エンコーダーのみが更新されることが多く、これが意味的なアラインメントに制限をもたらしパフォーマンスのボトルネックとなっていました。CovMatchは、実際の特徴と合成された特徴のクロス共分散を調整し、各モダリティ内での特徴分布を正則化します。これにより、テキストエンコーダーと画像エンコーダーの共同最適化が可能になり、パフォーマンスが向上します。Flickr30KとCOCOのデータセットで評価した結果、CovMatchは最新のマルチモーダル蒸留手法を上回り、500の合成ペアを用いてリトリーバル精度が最大6.8%向上することが確認されました。