この記事では、Contrastive Language-Image Pre-training (CLIP) におけるビジョン・言語の結合的推論の難しさを、トークンレベルでの因果表現学習フレームワークを用いて分析しています。従来の因果モデルは、テキストを単一のベクトルとして扱うため、トークンレベルの構造が無視され、プロンプト感度や難しいネガティブサンプルに対する失敗が説明されていません。著者たちは、トークン化されたテキストに基づく新たな理論を提案し、CLIPのコントラスト目的がどのようにモーダル不変の潜在変数を回復できるかを証明しています。また、トークンの粒度がCLIPの構成的脆弱性の根本的な理由を示すことや、擬似最適テキストエンコーダーの存在が正しいキャプションと難しいネガティブを区別できない事例についても探求しています。この分析は、言語側の非同一性と視覚側の失敗との関連を示し、より良いネガティブサンプリング戦略が必要であることを示唆しています。