SymLoc: HaluEvalとTruthfulQAにおける幻覚の象徴的局在化

本研究は、大規模言語モデル（LLM）が言語的な触発要素に対して幻覚を引き起こすメカニズムを探求する。具体的には、修飾語、否定、数値、例外、固有名詞などの象徴的トリガーがLLMにどのように影響するかを分析することを目的としている。従来の手法では、トークンを均等に扱うため、象徴的な言語知識の役割を見落としていた。本研究では、象徴的な言語および意味的知識を利用した初の局在化フレームワークを提案し、HaluEvalおよびTruthfulQAを用いて5つのモデルを分析する。その結果、初期層（2-4層）で象徴的要素の注意のばらつきが急激に不安定になり、否定が著しいばらつきを引き起こすことが示された。また、より大きなモデルでも幻覚率が高いままとなり、象徴的な意味処理が根本的に失敗していることが明らかになった。この研究は、幻覚を象徴的な言語処理の失敗として理解し、局在化する方法を提供する。