この記事では、適切な重み減衰の調整を通じて、層別のスケーリングルールを提案しています。著者は、最新のスケール不変アーキテクチャにおいて、Optimizerが支配する安定状態に早く入ることにより、効果的な学習率が幅に依存する問題を分析し、これを解決するためにAdamW用の新たな重み減衰スケーリングルールを導入しました。具体的には、行列パラメータの特異値スペクトルが幅のスケーリングに対して一定の形状でスケールすると観察し、学習率と重み減衰の転送を広げるための経験則を示しています。実験により、LLaMAスタイルのトランスフォーマーでこのルールが検証され、学習率と重み減衰がターゲット幅に効果的に移行できることを確認しました。このアプローチにより、幅に依存しない超パラメータの転送が可能になります。