PAS : 大規模ビジョン・言語モデルにおけるオブジェクト幻覚検出のための前注意スコア

PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models

大規模ビジョン・言語モデル（LVLM）は強力ですが、オブジェクト幻覚により信頼性に欠けることがあります。本研究では、LVLMが多くの幻覚予測において画像を無視し、以前生成された出力トークン（前準備トークン）に依存して新しいオブジェクトを推測することを示しています。この挙動は、前準備トークンに応じた画像と予測されたオブジェクトの間の相互情報量を通じて定量化され、画像への依存が弱いことが幻覚に強く相関していることを示しています。この発見を基に、前注意スコア（PAS）を導入しました。PASは、前準備トークンに対する注意重みから計算される軽量でトレーニング不要な信号で、追加のフォワードパスが不要であり、推論時にリアルタイムで計算可能です。この新しい信号を利用することで、PASは複数のモデルとデータセットにおいてオブジェクト幻覚検出の最先端性能を達成し、リアルタイムでのフィルタリングと介入を可能にします。