本論文では、最適化手法としてのAdamの独特な特性について探求しています。従来、Adamの挙動は確率的勾配降下法(SGD)を基に分析されることが多かったが、本研究ではAdamが独自の鋭さ尺度を減少させることを示しました。特に、訓練損失が小さい際、Adamはミニマイザーの多様体周辺を移動し、適応的に鋭さを最小化する動作を行います。この挙動は確率微分方程式を用いた連続時間近似によって厳密に特徴づけられます。また、ラベルノイズのある過剰パラメータモデルでの訓練において、AdamはHessian行列のトレースを最小化するSGDとは異なり、Hessianの対角成分の平方根のトレースを最小化することが示されています。これにより、Adamはスパース線形回帰においてSGDよりも優れたスパース性と一般化性能を達成できるのです。