谷間に沿ったより良い最小値を探求する

深層学習において、より低く、一般化性能の高い最小値を見つけることが重要ですが、既存の最適化手法は局所最小値に到達するとパラメータ空間の探索を停止してしまいます。この記事では、勾配ベースの最適化手法に対して適応型の「E」アダプタを提案し、局所最小値に到達した後も谷間（低い損失がほぼ同じになる領域）を探索し続けることで、より良い局所最小値を探せるようにします。このアプローチにより、より低く、フラットな局所最小値を見つける可能性が高まり、これは一般化性能の向上に関連しています。また、適応型最適化手法の収束性についても証明を提供します。特に、大規模バッチ学習において、最適化手法「Lamb」と比較して新しい手法ALTOは、様々なタスクで平均2.5%の精度向上を示しました。これにより、最適化アルゴリズムのデザインにおける新たな研究方向が開かれる可能性があります。