本記事では、テキストと画像を扱うマルチモーダル拡散モデルが、敵対的入力に対して脆弱であることを明らかにしています。具体的には、テキストと画像の整合性が不十分であるため、不適切なコンテンツやNSFW(Not Safe For Work)コンテンツの生成に重大なリスクが存在します。新たに提案された攻撃手法、Prompt-Restricted Multi-modal Attack(PReMA)は、与えられたプロンプトを変更せずに、入力画像を操作することで生成コンテンツを操作します。この手法は、従来の敵対的プロンプト生成手法とは異なり、単に敵対的な画像を生成することでモデルの出力を操作します。PReMAは、固定プロンプトで動作する画像編集アプリケーションなどに新たな脅威をもたらすものであり、様々なモデルでの画像インペインティングやスタイル転送タスクにおける評価結果からその効果が確認されています。