この記事では、マルチモーダル大規模言語モデル(MLLM)が異なるモダリティから提供される矛盾する情報を解決する過程、すなわちモダリティフォロイングについて焦点を当てています。従来の研究は、モデルの単一モダリティ推論における不確実性の影響を無視しており、粗いデータセット統計だけでこの行動を測定していました。本研究では、モダリティフォロイングを相対的推論不確実性と固有モダリティ嗜好という二つの基本要素に分解する新しいフレームワークを導入します。著者たちは、視覚的およびテキスト入力の推論難易度を制御するデータセットを構築し、エントロピーを使って精緻な不確実性測定を行います。その結果、モダリティのフォロー確率は、相対的な不確実性が増加するにつれて単調に減少するという普遍的な法則を発見しました。また、モデルの層ごとの予測分析を通じ、曖昧な領域でのモダリティ間の振動メカニズムを明らかにし、観察された決定の揺らぎを説明します。これにより、相対的不確実性と固有嗜好がモダリティフォロイングを支配する二つの原則として確立され、MLLMがどのように矛盾する情報を解決するかの定量的およびメカニズム的な洞察を提供します。