ビジョン・ランゲージモデルは文脈で何を見ているか？マルチモーダルな文脈内学習の調査

What do vision-language models see in the context? Investigating multimodal in-context learning

本研究は、視覚と言語を結びつけるモデル（VLMs）の文脈内学習（ICL）に関する体系的な調査を行います。大規模な言語モデル（LLMs）ではICLが広く研究されていますが、VLMsでは未だに十分に探求されていません。著者たちは、画像キャプショニングのベンチマークに基づいて、異なるアーキテクチャを持つ7つのモデルを評価し、プロンプト設計やアーキテクチャ選択、トレーニング戦略がマルチモーダルなICLに与える影響を分析しました。特に、デモンストレーションの数が増えるにつれてVLMsの注意パターンがどのように変化するかを初めて解析し、得られた結果は視覚情報とテキスト情報の効果的な統合が十分でないことを示しています。これにより、VLMsのICL機能の限界が明らかになり、マルチモーダルな文脈内の事例から学ぶ能力を強化するための洞察が提供されました。