大規模視覚言語モデル(LVLM)は、画像内の物体の存在に関して誤った判断を下す「オブジェクト幻想」に悩まされています。この問題は、モデルが訓練中に高頻度で共起する物体に強く関連付けられることから生じる偽相関に起因しています。これを解決するために、著者らは因果分析を取り入れた「Causal-HalBench」を提案し、構造的因果モデル(SCM)を構築しました。具体的には、共起バイアスから生じる偽相関を定量化・評価するためのベンチマークであり、反事実的サンプルを通じてモデルのロバスト性を評価します。実験結果により、主流のLVLMが偽相関に対して感受性を持つことが示されましたが、その程度はモデルによって異なります。この研究は、人工知能の進歩を促進するための学会で発表される予定です。