この記事では、マルチモーダル共埋め込みモデルの一つであるCLIPのテキストエンコーダの脆弱性に焦点を当てています。CLIPは画像とテキストを同一の表現空間に配置することでゼロショット分類やマルチメディア情報検索において優れた成果を上げていますが、入力に対する小さな乱れに対して不安定な側面を持っています。特に、手動で表現されたクエリに対しては、わずかな変化でも結果のランキングに大きな影響を与えることがあります。本論文では、非意味的クエリのさまざまな perturbations がマルチメディア情報検索シナリオにおいてどのように影響するかを系統的に分析し、さまざまなCLIPのバリエーションにおける語彙、構文および意味の perturbations を評価しています。その結果、構文的および意味的な perturbations が最も大きな不安定性を引き起こす一方で、表面的な編集(例:句読点や大文字小文字の変更)が脆弱性の主要な要因であることが示されました。著者たちは、視覚言語モデルの評価においてロバスト性が重要な次元であると強調しています。