近年の画像編集モデルは、自然言語による編集指示に従って優れた結果を達成していますが、大規模な入力-ターゲットペアのデータセットを用いた教師あり微調整に依存しています。このアプローチは、対となるペアを大規模に収集するのが難しく、ボトルネックとなります。本研究では、ペアデータを全く必要としない新しいトレーニングパラダイムを提案しています。具体的には、数ステップの拡散モデルを直接最適化し、視覚と言語のモデル(VLM)からのフィードバックを活用します。このVLMは、編集が指示に従っているか、変更されていないコンテンツを保持しているかを評価し、エンドツーエンドの最適化のための直接的な勾配を提供します。また、生成された画像が事前に学習されたモデルの画像マニフォールド内に収まるようにするための分布マッチング損失(DMD)を導入しています。実験の結果、この方法はペアデータなしで、広範な教師ありペアデータを用いて訓練されたさまざまな画像編集モデルに匹敵する性能を発揮しました。