本研究では、CLIPのようなマルチモーダルコントラスト事前学習フレームワークにおける類似性計算メカニズムの向上を提案しています。既存の理論研究から、ペアになったモダリティ間の最適な類似性メトリックは、両モダリティ間の点ごとの相互情報量(PMI)に対応すべきであることが示されています。しかし、CLIPやそのバリアントの現在の実装はPMIの基礎にある線形構造を十分に活用していません。そこで、本研究ではKME-CLIPを提唱し、再生核ヒルベルト空間の内積を通じてこの構造を活用します。理論的に我々の手法がPMIを任意の精度で近似できることを証明し、複数の検索および分類タスクにおいてCLIPの標準の定式化よりも全体的に優れた性能を示す実証結果を提供しています。