大規模視覚言語モデル(LVLM)は多様なタスクで優れた性能を発揮する一方で、幻覚の問題に悩まされている。本研究では、トランスフォーマーの因果構造に基づいた包括的な介入フレームワークを提案し、異なる介入経路が幻覚に与える影響を統合している。 LVLMの幻覚は単一の因果経路から生じるのではなく、画像からテキストへの変換、画像から出力テキストへの変換、テキストからテキストへの経路が相互に作用して生じることが明らかになった。また、LVLMは質問応答のアライメント形式に応じて異なる経路を依存することを新たに発見した。この知見を基に、重要な幻覚発生点を特定し、識別形式と生成形式に合わせて介入するシンプルで効果的な手法を提案。複数のベンチマークでの実験により、本アプローチが多様なアライメント形式にわたって幻覚を一貫して減少させることが示された。