本論文では、情報集約型の視覚推論における新しいフレームワーク「Speculative Verdict(SV)」を紹介しています。従来の大規模視覚言語モデル(VLM)は、情報が密に絡まり合った画像を用いた推論において課題を抱えています。SVは、軽量なドラフト専門家と強力な判決モデルを組み合わせることで、計算コストを抑えつつ正しい回答を引き出すことを目指しています。ドラフト段階では、小型VLMが多様なローカライズ候補を生成し、判決段階で強力なVLMがこれらを統合して最終的な回答を提供します。さらに、合意の高い推論経路のみを選択するメカニズムを導入することで、効率性と精度を向上させています。実験結果から、SVは情報集約型の視覚質問応答のベンチマークで一貫した改善を達成し、大規模な専有モデルやトレーニングパイプラインと比較してエラー修正とコスト効率を実現しています。