本研究では、多モーダル深層学習モデルに対するバックドア攻撃に対して、その堅牢性を向上させる新しい防御戦略を提案しています。既存の防御手法では、攻撃対象の特定が不十分で、一般的には膨大なデータセットを用いたトレーニングが行われていますが、本研究では、汚染されたCLIPモデルからバックドアトリガーを特定し、影響を受けたサンプルやラベルを効率的に特定する方法を探求しています。具体的には、画像セグメンテーション「オラクル」を用いて、汚染されたCLIPモデルの出力を監視し、(1)CLIPとオラクルの知識を区別することでトリガーを特定し、(2)影響を受けたラベルとサンプルを明らかにし、コンパクトなファインチューニングデータセットを作成します。これにより、汚染されたCLIPモデルを修正し、バックドア効果を打消すことが可能になります。実験結果は、本戦略がCLIPベースのバックドア防御において効果的であることを示しています。