arXiv cs.LG

拡散モデルをデータセット蒸留の事前知識として利用する

Diffusion Models as Dataset Distillation Priors

http://arxiv.org/abs/2510.17421v1


この記事では、データセット蒸留の目的で拡散モデルを利用する新しい手法「Diffusion As Priors(DAP)」を提案しています。データセット蒸留は、大規模データセットからコンパクトで情報量の多いデータセットを合成することを目指していますが、多様性、一般化、代表性を持つ蒸留データセットを一つにまとめることは困難です。本研究では、拡散モデルの持つ自然な代表性を活用し、特徴空間における合成データと実データの類似度を定量化することで、代表性を正規化します。これにより、逆拡散過程を誘導する事前知識として利用し、データ品質の向上を図ります。大規模データセットに対する実験では、DAPが他の最先端手法を上回る高忠実度データセットを生成し、優れた一般化能力を持つことを示しています。この研究は、拡散事前知識とデータセット蒸留の目標との理論的な関連性を確立し、蒸留データセットの品質改善においてトレーニング不要の実践的なフレームワークを提供します。