バイアスが真実のふりをするとき：虚偽の相関がLLMの幻覚検出を妨げる方法

When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs

大規模言語モデル（LLM）は、以前の進展にもかかわらず、虚偽の応答を生成する幻覚を示し続けています。本論文では、訓練データ内の特徴（姓）と属性（国籍）の間に見られる表面的だが統計的に顕著な関係によって引き起こされる幻覚の新たなタイプを特定しています。著者らは、これらの虚偽の相関関係が、モデルのスケーリングに対して免疫があり、現在の検出手法を回避する幻覚を引き起こすことを実証しています。また、既存の幻覚検出手法が虚偽の相関関係が存在する場合に根本的に失敗する理由を理論的に分析し、虚偽の相関による幻覚を対象とした新たなアプローチが緊急に必要であることを強調しています。