arXiv cs.AI

オブリビエイトの限界:刺激-知識絡み合い-行動フレームワークを通じたLLMにおける忘却の評価

The Limits of Obliviate: Evaluating Unlearning in LLMs via Stimulus-Knowledge Entanglement-Behavior Framework

http://arxiv.org/abs/2510.25732v1


この記事では、大規模言語モデル(LLM)における忘却の評価方法について探究しています。特に、LLMが意図的に忘却された事実情報をどの程度思い出すことができるかを、異なるサイズのモデル(2.7Bから13Bパラメータ)を用いて実験しました。ACT-Rやヘッブ理論に基づいて構築された「刺激-知識絡み合い-行動フレームワーク(SKeB)」を提唱し、情報の絡み合いをドメイングラフでモデル化しています。このフレームワークにより、忘却されたモデルにおける事実の回収が、説得的な提示とどのように関連しているのかを評価しています。実験の結果、説得的なプロンプトを用いることで事実の回収率が有意に向上し、モデルのサイズが小さいほどその効果が高いことが示されました。この研究は、LLMにおける忘却の完全性や robustness、全体的な行動の評価に対する基礎を提供しています。