AdamHD: デカップルド・ヒューバー減衰正則化による言語モデルの事前学習

本研究では、AdamWの代替手法「AdamHuberDecay」を提案します。この手法は、重みの減衰における$ ext{l}_2$罰則をデカップルド・スムーズ・ヒューバー正則化に置き換え、パラメータ更新を行います。パラメータの大きさが閾値$ ext{δ}$以下の場合は二次的に減衰し、閾値を超えると一次的に減衰するため、罰則の重みが適切に調整されます。この手法は、訓練時間の10-15%の短縮、バリデーションの混乱度を最大4ポイント削減、下流のタスクにおいて2.5-4.7%の性能向上を実現します。また、パラメータのスパース性が向上し、メモリ使用量が20-30%削減されることが確認されました。大量バッチ環境や外れ値に対しても堅牢であることが示されています。これにより、次世代生成トランスフォーマーの効率的かつ耐障害性のある訓練が可能となります。