トランスフォーマーにおけるレイヤーノルムの暗記と一般化への影響

本研究では、トランスフォーマーにおけるレイヤーノルム（LayerNorm）が暗記と学習に与える影響を探ります。従来、Pre-LayerNormトランスフォーマーがPost-LayerNormトランスフォーマーよりも安定した勾配の流れを持つため、好まれる傾向にありますが、これらのアーキテクチャにおけるレイヤーノルムの影響は不明確でした。調査の結果、Pre-LayerNormモデルにおいてはレイヤーノルムが安定した学習に寄与する一方で、Post-LayerNormモデルでは暗記に影響を与えることが明らかになりました。特に、Pre-LayerNormモデルからレイヤーノルムパラメータを排除すると、暗記が悪化し学習が不安定化することが確認されました。逆にPost-LayerNormモデルでは、レイヤーノルムが本物のラベルの復元を通じて暗記を緩和する役割を果たします。また、レイヤーノルムが初期層で特に重要であることも示されました。これらの知見は、トランスフォーマーにおけるレイヤーノルムの役割を新たな視点から理解する手助けとなります。