arXiv cs.LG

ノイズ投影:拡散モデルにおけるテキストと画像のミスマッチを解消するためのプロンプト非依存ギャップの克服

Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models

http://arxiv.org/abs/2510.14526v1


本論文では、テキストから画像への生成におけるミスマッチの原因を探求しています。事前学習されたStable Diffusion(SD)モデルを使用した場合、異なる初期ノイズは独自のデノイジングパスを誘発し、多様な画像を生成できますが、プロンプトとの整合性が失われることがあります。これに対処するため、著者たちはノイズの投影器を提案し、テキスト条件に基づいて初期ノイズを改善する手法を導入しました。このアプローチでは、プロンプト埋め込みに基づいてノイズをプロンプト認識の対になり変換することで、デノイジング前にプロンプトにより合った分布を得ることを目指します。また、この方法は参照画像や手作りの事前情報を必要とせず、少ない計算コストで実行可能です。多様なプロンプトに対しても、テキストと画像の整合性が向上することが実験により示されています。