データセット蒸留は、大規模なデータセットを合成されたサブセットに凝縮し、フルデータセットでのトレーニングに匹敵するパフォーマンスを実現しつつ、ストレージおよび計算コストを大幅に削減します。従来の手法はすべての実インスタンスが均等に貢献すると仮定していますが、実際のデータセットには有益なインスタンスと冗長または有害なインスタンスが混在しています。本研究では、影響関数を活用してデータ品質を考慮する影響重み付き蒸留(IWD)というフレームワークを提案します。IWDは各インスタンスにその蒸留目標への影響に基づいて適応的な重みを割り当て、有益なデータを優先し、役に立たないまたは有害なデータの重みを減少させます。そのモジュール設計により、IWDはさまざまなデータセット蒸留フレームワークにシームレスに統合可能です。実験結果からは、IWDを統合することで蒸留されたデータセットの質が向上し、モデルのパフォーマンスが最大7.8%向上することが示されています。