本稿では、深層学習における最適化のダイナミクスを理解する重要性が強調されている。具体的には、確率的勾配降下法(SGD)やそのバリエーションが良好な一般化を実現する仕組みが解明されていないことに触れ、特に過剰パラメータ化された設定において、これらのアルゴリズムがフラットまたはシンプルなミニマを好むことを述べている。フラットさが一般化に結びついていることは既存研究で示されており、Sharpness-Aware Minimization(SAM)もフラットさを促進するが、データ構造、最適化のダイナミクス、学習された解の性質を統一的に結びつける理論が不足している。著者らは、SGD、ランダム摂動、SAMの挙動を分析するための線形安定性フレームワークを開発し、特に二層ReLUネットワークにおいて、勾配曲率がデータポイント間でどのように整合するかを定量化するコヒーレンス尺度を中心に議論する。これは、なぜ特定のミニマが安定し、トレーニング中に好まれるかを明らかにするものである。