少ないことが時には多い理由：データキュレーションの理論

この記事では、現代の機械学習における重要な逆説、すなわち「いつデータを少なく使う方が良いのか？」という問いに答える理論的枠組みを紹介しています。従来の『多いことが良い』というスケーリング法則に対抗する技術として、少ないデータセットを用いた方法が注目されており、特にデータが厳選されている場合に性能が向上することが示されています。本研究では、不完全なオラクルがトレーニング例をその難易度や正確性に応じて選ぶデータキュレーション戦略について探求しています。実験結果は、少ないが慎重にキュレーションされたデータセットが完全なデータセットを凌駕する条件を示し、データのサイズと質に基づく正確な相転移曲線を導出しました。さらに、実データセット（ImageNet）での実証結果により、キュレーションが精度を改善しモデルの崩壊を緩和する状況が確認されました。