シャープミニマは一般化できる：データに関する損失ランドスケープの視点

本研究は、深層学習における一般化のメカニズムについて、損失ランドスケープの視点から考察しています。従来のボリューム仮説は、フラットミニマが大きなボリュームを持つために一般化が得意であると説明しますが、大規模データセットの役割を考慮していません。この研究では、トレーニングデータの量を変化させた際のミニマのボリュームを測定することで、シャープミニマが存在し、これらも一般化が良好であることが明らかになります。しかし、シャープミニマは小さいボリュームのため見つかりにくいことが指摘されます。さらに、データが増えることで損失ランドスケープが変化し、以前は小さな一般化可能なミニマが相対的に大きくなることが示されています。