arXiv cs.AI

変分オートエンコーダーなしの潜在拡散モデル

Latent Diffusion Model without Variational Autoencoder

http://arxiv.org/abs/2510.15301v1


この記事では、変分オートエンコーダー(VAE)を使用しない新しい潜在拡散モデル「SVG」を提案しています。既存のVAE + 拡散モデルのアプローチは、高忠実度な合成を可能にする一方で、訓練効率の低さや推論速度の遅さ、さらには視覚タスクへの移行性の低さといった課題がありました。これらの問題はVAEの潜在空間の明確な意味的分離と強い識別構造の欠如に起因しています。SVGは自己教師あり表現を利用し、明確な意味的識別能力をもつ特徴空間を構築します。さらに、軽量の残差ブランチを使って詳細を保持し、高忠実度の再構成を実現しています。このモデルは効率的な学習を促進し、生成品質を向上させるため、ダイレクトに意味的に構造化された潜在空間で訓練されます。実験結果は、SVGが自己教師あり表現の意味的および識別的能力を保持することを示しています。