大規模な言語モデルにおける学習後の忘却のマッピング

本研究では、大規模な言語モデル（LM）の学習後における知識の忘却とその影響を調査しています。特に、学習後のプロセスが事前学習した知識に及ぼす影響は不明瞭な部分が多く、各事実を忘却する影響は均質ではないため、忘却と後方伝達を測定する新たな手法を提案しています。具体的には、正解が学習後に不正解になる遷移（1→0）や、不正解から正解に戻る遷移（0→1）をカウントし、これらを用いて忘却と後方伝達を定量化します。実験の結果、領域連続事前学習は中程度の忘却を引き起こし、RL/SFT（強化学習/順序ファインチューニング）後のモデルは数学や論理において大きな後方伝達をもたらし、全体的には低から中程度の忘却が見られました。また、モデルの統合が忘却を効果的に軽減するわけではないことも明らかになりました。このフレームワークは、事前学習された知識が学習後にどのように変化するかを実用的に評価する手段を提供します。