SNOO: ステップKネステロフ外部最適化手法 - 擬似勾配に適用されたネステロフモーメントの驚くべき効果

SNOO: Step-K Nesterov Outer Optimizer - The Surprising Effectiveness of Nesterov Momentum Applied to Pseudo-Gradients

本記事では、SNOO（ステップKネステロフ外部最適化手法）の有効性について論じています。最近の大規模言語モデルの急速な発展に伴い、より効率的な最適化手法の需要が高まっています。中でも、Lookahead系最適化手法は二重ループ構造を採用し、速い重みと遅い重みのセットを維持します。DiLoCoは、分散トレーニング用に設計された手法で、複数のワーカーからの均衡擬似勾配にネステロフモーメントを適用しています。本研究では、このアプローチが主に擬似勾配へのネステロフモーメントの適用によるものであることを実証し、非分散環境でのトレーニングを改善することを示しています。SNOOは、計算資源の効率的な利用が可能で、モデルサイズの増加に伴いパフォーマンスが向上します。これにより、AdamWやMuonなどの内的最適化手法の実用的な強化が期待されます。