この研究では、深層学習モデルの計算要求が増加する中で、効率的なコアセット選択技術の必要性が高まっていることを指摘しています。コアセット選択は、全データセットのパフォーマンスを近似する小さな代表的サブセットを特定することを目指しており、高度な理論的基盤と実際の利点を持つ勾配ベースの方法が特に注目されています。しかし、ナイーブな確率的勾配降下法(SGD)が強力な基準となり、損失の曲率不一致による代表性の低下といった課題があります。本論文では、ポスタリオサンプリングと損失風景の関連性を確立し、高データ汚染シナリオにおける堅牢なコアセット選択を可能にする新しいフレームワークを提案しています。さらに、スムーズな損失関数を導入し、計算効率を維持しつつ安定性と一般化能力を向上させています。実験を通じて、本アプローチが多様なデータセットでのトレーニング速度と一般化能力を改善することを実証しています。