arXiv cs.AI

一般化されたデノイジング拡散符号化モデル (gDDCM): 事前学習済み拡散モデルを用いた画像のトークナイゼーション

Generalized Denoising Diffusion Codebook Models (gDDCM): Tokenizing images using a pre-trained diffusion model

http://arxiv.org/abs/2511.13387v1


本記事では、最近提案されたデノイジング拡散符号化モデル(DDCM)の一般化版である一般化デノイジング拡散圧縮モデル(gDDCM)を紹介しています。DDCMはデノイジング拡散確率モデル(DDPM)を活用し、逆過程におけるランダムノイズを事前定義されたルールに基づく特定のセットからサンプリングされたノイズに置き換え、画像圧縮を可能にします。しかし、DDCMはDDPM以外の手法には適用できません。gDDCMはDDCMを主流の拡散モデルやそのバリエーション(スコアベースモデル、一貫性モデル、整流フローなど)に拡張します。実験では、CIFAR-10およびLSUNベッドルームデータセットを使用して評価を行い、gDDCMが従来のDDCMをこれらのモデルに一般化し、パフォーマンスを向上させたことを示しています。