モデルの目でスパイする：MLLMの行動テストとしての視覚検索

本記事では、多モーダル大規模言語モデル（MLLM）が視覚言語タスクにおいてどのように機能するかを探求しています。具体的には、視覚的処理のメカニズムを明らかにするために、認知心理学に基づいた古典的な視覚検索パラダイムを適用し、MLLMが「ポップアウト」効果を示すかどうかを実験的に検証しました。この効果は、目立つ視覚特徴が周囲の要素のサイズに関係なく認識される現象です。実験により、MLLMが色やサイズによる単一の特徴に基づく検索では人間のようなポップアウト効果を示し、複数の特徴による検索では限界があることを発見しました。また、MLLMは暗視条件といった自然なシーンの事前知識を取り入れている可能性があることも示唆されています。視覚検索がMLLMの知覚能力評価のための診断ツールとして機能することを強調しています。