見ているが信じていない：VLMにおける視覚的注意と回答の正確性のギャップを探る

Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs

本研究は、視覚言語モデル（VLM）が視覚的証拠が存在するにもかかわらず不正確な回答を出す現象を検証しています。特に、視覚的証拠の認識とその有効活用の失敗が原因であるかを調査しました。浅い層は主にテキストに焦点を当て、深い層は局所的な証拠を稀に確実に注視することを発見しました。この現象は「見ているが信じていない」と呼ばれ、主要なVLMファミリーに広く見られます。この問題を解決するため、選択的注意を用いたマスキングによって深層の証拠領域を強調する介入を導入しました。この手法はトレーニングを必要とせず、LLaVA、Qwen、Gemma、InternVLなど、複数のモデルの精度を一貫して改善することを示しました。 VLMは内部に信頼性のある証拠をエンコードしていますが、その利用が不十分であるため、これらの信号を明示化することで認識と推論のギャップを埋め、VLMの理解と信頼性を向上させることが期待されます。