この記事では、マルチモーダル大規模言語モデル(MLLMs)が複数の画像に対して直面する課題について説明しています。特に、細かな視覚的情報の認識が不足し、複数の視覚入力から情報を効果的に推論し合成する能力が低下する問題が指摘されています。これまでの研究は、主に単一画像の設定や特定の制約されたシナリオに焦点を当てており、一般的なマルチ画像推論タスクにおける理解が不足しています。このため、現在のプロンプト手法による視覚的詳細の認識と情報処理の能力を徹底的に調査した結果、既存手法が必要な手がかりに注意を払わず、視覚的認識と推論を統合するのに失敗していることがわかりました。それを踏まえ、新たなゼロショットプロンプト手法である「質問誘導型キャプションチェーン(QG-CoC)」を提案し、任意の画像数に対して効果的に対応できるようにしました。実験結果では、QG-CoCが競争力のある性能を示し、課題の難しいシナリオにおいて既存手法に比べて有意な改善をもたらすことが確認されました。