AdamアルゴリズムのODE近似：一般的および過剰パラメータ設定

この記事では、深層学習における最も人気のある最適化手法であるAdamアルゴリズムに対して、ODE（常微分方程式）に基づく手法を開発し、速さと遅さのスケーリング領域での挙動を探ります。固定されたモメンタムパラメータと消失するステップサイズにおいて、Adamアルゴリズムが特定のベクトル場（Adamベクトル場）の流れの漸近擬似軌道であることを示し、その特性を利用して収束結果を確立します。特に、Adamアルゴリズムが収束する場合、その限界はAdamベクトル場の零点であることが必要であり、目的関数の局所最小値や臨界点ではないことが分かりました。また、過剰パラメータ設定においては、Adamアルゴリズムが局所的に最小値の集合を見つけることができることを示しています。具体的には、グローバル最小値の近傍において、目的関数がAdamベクトル場によって誘導される流れのリヤプノフ関数として機能し、アルゴリズムがグローバル最小値の近傍に無限回入ると、その集合に収束することが示されています。