Leak@$k$: アンラーニングは確率的デコーディング下でLLMsを忘れさせない

大規模言語モデル（LLM）におけるアンラーニングは、規制遵守や倫理的な生成AIシステムの構築において重要です。しかしこの研究では、ほぼ全ての既存のアンラーニング手法が実際には真の忘却を達成できていないことを示しています。決定論的デコーディングでは成功したように見える知識の削除が、確率的デコーディングでモデルをサンプリングすると敏感な情報が再浮上することがわかりました。新たに提案したメタ評価指標「leak@$k$」は、現実的なデコーディング戦略の下でモデルからkサンプルを生成する際に忘却された知識が再現される可能性を定量化します。TOFU、MUSE、WMDPという三つの代表的なベンチマークを用いて大規模かつ体系的な研究を行った結果、知識漏洩が手法やタスクを超えて持続していることが示され、現在の先進的なアンラーニング技術は限られた忘却しか提供していないことが強調されました。