この論文では、大規模言語モデル(LLM)の訓練におけるメモリ効率的な最適化の重要性が論じられています。一般的なアプローチの一つは、勾配低ランク射影を用いて、投影された最適化状態のみを保存する方法です。しかし、多くの手法には収束保証が欠けており、元の最適化アルゴリズムに対して偏りが生じるため、性能にギャップが生まれることが問題とされています。これを解決するために、層毎のサンプリング技術を使った偏り除去に関する研究が行われています。特に、GaLoreのメカニズムとMuonアルゴリズムに基づいて、新しくバイアスのない低ランク最適化手法「GaLore Unbiased with Muon(GUM)」が提案されています。この手法は、Muonアルゴリズムの収束保証を持ちつつ、低ランク技術のメモリ効率を保つことを理論的に証明しており、LLMのファインチューニングと事前訓練においても、GaLoreよりも顕著な改善が示され、全パラメータ訓練よりも優れた性能を発揮しています。