大規模言語モデルにおける否定文の影響と幻覚現象

大規模言語モデル（LLMs）における幻覚現象に関する研究が進む中、否定文が幻覚に与える影響は未だ十分に探求されていません。本研究では、否定がもたらす文脈の変化をLLMsが認識し、肯定的な事例と同様に幻覚を適切に識別できるかを検証します。また、否定表現を用いて既存の幻覚検出データセットを再構築したNegHaluデータセットを設計しました。実験結果から、LLMsは否定文において幻覚を効果的に検出することに苦労し、しばしば論理的に矛盾した判断を行うことが明らかになりました。さらに、入力をトークンレベルで処理する際のLLMsの内部状態を追跡し、意図しない影響を和らげる上での課題を分析しています。