arXiv cs.LG

誤信の地図:注意パターンによる内因性および外因性幻覚の追跡

The Map of Misbelief: Tracing Intrinsic and Extrinsic Hallucinations Through Attention Patterns

http://arxiv.org/abs/2511.10837v1


本研究では、大規模言語モデル(LLMs)の安全性が求められる分野での幻覚問題に焦点を当てています。従来の幻覚検出方法は、計算コストが高いサンプリング戦略に依存しており、幻覚のタイプの区別を無視していることが多いです。そこで、内因性および外因性幻覚を区別する評価フレームワークを導入し、専用のベンチマークで検出性能を評価します。また、注意に基づく不確実性定量化アルゴリズムを用い、新たな注意集約戦略を提案します。実験結果から、Semantic Entropyなどのサンプリングベースの方法は外因性幻覚の検出には効果的ですが、内因性幻覚には失敗しがちです。一方、我々の方法は入力トークンに対する注意を集約することで、内因性幻覚に対して適しています。これにより、幻覚検出戦略の調整における新たな指針が得られ、モデルの不確実性を定量化するための注目信号の重要性が強調されています。