構造最適化のための非ユークリッドSGD: 統一的分析と改良された収束速度

Non-Euclidean SGD for Structured Optimization: Unified Analysis and Improved Rates

本稿では、非ユークリッドSGD（確率的勾配降下法）の新たな手法について論じており、特にSignSGD、Lion、Muonなどが注目されています。これらは深層ニューラルネットワークの訓練において実際に成功を収めた結果、最適化コミュニティから注目されました。多くの先行研究が理論的な収束解析に挑んでいますが、従来のユークリッドSGDよりも優れた収束速度を正当化するには至っていません。本研究では、構造的滑らかさと勾配ノイズの仮定の下で新しい統一的収束分析を展開し、非ユークリッドSGDがヘッセ行列や勾配ノイズの上限のスパース性や低ランク構造を利用できること、外挿やモーメンタム分散削減などのアルゴリズム的手法から恩恵を受けること、さらにはAdaGradやShampooといったより複雑な最適化アルゴリズムと同等の収束速度が得られることを示しています。