視覚基盤モデルは潜在拡散モデルの優れたトークナイザーになり得る

本論文では、潜在拡散モデル（LDM）の視覚トークナイザーの性能が、視覚基盤モデル（VFM）の品質に依存していることを示す。既存の研究は、蒸留法を用いてVFMを組み込む試みを行っているが、このアプローチには根本的な欠陥があり、元のVFMとの整合性が弱まるため、分布シフトによって意味的にずれが生じる。本研究では、蒸留を回避し、VFM変分オートエンコーダ（VFM-VAE）を提案する。VFMのセマンティックフォーカスとピクセルレベルの忠実性の間の緊張を解決するために、マルチスケール潜在融合と進行的解像度再構築ブロックを持つVFM-VAEデコーダを再設計し、空間的に粗いVFM特徴から高品質な再構成を可能にした。また、拡散訓練中の表現動態の包括的な分析を提供し、新しいSE-CKNNAメトリックを導入することで、トークナイザーと拡散の整合戦略を開発し、大幅な収束の加速を実現した。最終的に、我々の提案したデザインと訓練戦略は、従来のトークナイザーに対し、効率的かつ優れた性能を示すことに成功した。