プロンプトベースの安全ガイダンスは学習されていないテキストから画像への拡散モデルに対して効果がない

Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models

テキストから画像を生成するモデルの進展により、悪意のある入力プロンプトによる有害なコンテンツの生成が懸念されています。この問題に対処するため、モデルを微調整して有害な概念を学習から除去する方法と、否定的なプロンプトを利用するトレーニングなしのガイダンス手法の2つのアプローチが登場しました。しかし、これらのアプローチを組み合わせると防御性能がほとんど改善されないか、むしろ劣化することが観察されました。そこで本研究では、トレーニングなしの手法で用いる否定的プロンプトを概念逆転で得られる暗示的なネガティブ埋め込みに置き換えるシンプルで実験的に堅牢な方法を提案しました。この方法は、いずれのアプローチも変更する必要がなく、既存のパイプラインに簡単に統合可能です。実験的には、ヌードや暴力に関するベンチマークでその効果が確認され、入力プロンプトのコアセマンティクスを保持しながら、防御成功率が一貫して向上しました。