トレーニング不要の安全なテキスト埋め込みガイダンスによるテキストから画像への拡散モデル

この記事では、テキストから画像を生成するモデルの安全性を向上させる新しいアプローチ「Safe Text embedding Guidance（STG）」を提案しています。近年、拡散モデルと大規模なウェブクローリングデータセットにより、非常にリアルで意味的に整合性のある画像生成が実現されていますが、これらのデータセットには不適切または偏った内容が含まれ、その結果として有害な出力が生成される懸念があります。STGは、サンプリング中にテキスト埋め込みをガイドすることで、訓練なしに拡散モデルの安全性を向上させます。この方法は、最終的なデノイズ画像に基づいて安全関数に従ってテキスト埋め込みを調整し、追加の訓練を行わずに安全な出力を生成します。実験により、ヌード、暴力、アーティストスタイルの除去などのシナリオで、STGがトレーニングに基づく基準やトレーニング不要の基準よりも安全なコンテンツを除去するのに効果的であることが確認されました。