損失曲率のスペクトルにおける暗記から推論への移行

この記事では、トランスフォーマーモデルにおける暗記の表現を特定し、言語モデル（LM）やビジョントランスフォーマー（ViT）の重みの中でどのように分解できるかを示しています。この分解は、暗記されたトレーニングポイントの曲率が非暗記ポイントよりも鋭いことに基づいており、高い曲率から低い曲率への重み成分の順序付けが明示的なラベルなしでの区別を可能にします。この知見から、無関係な暗記データの再現を効果的に抑制し、下位の困惑度を保持する重み編集手法を提案しています。具体的な調査により、事実検索や算術などのダウンストリームタスクにおいて、一貫して否定的な影響をもたらすことがわかりました。この研究はニューラルネットワークにおける暗記の理解を高め、タスク解決に関わる特異な構造の存在を示す証拠を提供しています。