arXiv cs.AI

マルチモーダルLLMにおける視覚情報処理の再考

Rethinking Visual Information Processing in Multimodal LLMs

http://arxiv.org/abs/2511.10301v1


LLaVAアーキテクチャは視覚と言語タスクで著しい成功を収めているが、テキストとビジュアルの間の不一致のため、視覚特徴を効果的に統合するのに課題がある。本研究では、この問題に新しい視点からアプローチし、LLMが言語モデルのみならず強力な視覚エンコーダとして機能することを提案する。具体的には、LLaViTと呼ばれる新しいモデルを提示し、(1)視覚モダリティ用のQKV投影を分離して学習する、(2)視覚トークンに対する双方向注意を可能にする、(3)グローバルおよびローカルの視覚表現を統合する、という三つの主要な修正を行う。広範な実験により、LLaViTは従来のLLaVA手法を多数のベンチマークで上回り、二倍のパラメータを持つモデルをも凌駕する結果を示した。