LLMの信念によるLLMの忘却

大規模言語モデル（LLM）は、大量のデータで訓練されることにより、機密性のある内容や有害なコンテンツを記憶するリスクを抱えています。このような記憶は、後にモデルの出力に現れる可能性があります。従来の忘却手法は特定の反応の確率を下げるために勾配上昇法に依存していますが、これには‘圧縮効果’と呼ばれる副作用が生じることが分かりました。この圧縮効果により、高確率の領域へ確率質量が再分配され、実際の忘却が不十分となる場合があります。研究では、モデルの高信頼生成（モデル信念）を忘却目的に組み込む新たなブートストラッピング（BS）フレームワークを提案しています。このアプローチにより、ターゲット反応とモデル信念の両方を抑制し、より徹底的な忘却を実現できることが示されています。また、さまざまなベンチマークを通じた広範な実験によって、この手法の有効性が確認されています。