マルチモーダルLLMにおける視覚情報処理の再考

LLaVAアーキテクチャは視覚と言語タスクで著しい成功を収めているが、テキストとビジュアルの間の不一致のため、視覚特徴を効果的に統合するのに課題がある。本研究では、この問題に新しい視点からアプローチし、LLMが言語モデルのみならず強力な視覚エンコーダとして機能することを提案する。具体的には、LLaViTと呼ばれる新しいモデルを提示し、（1）視覚モダリティ用のQKV投影を分離して学習する、（2）視覚トークンに対する双方向注意を可能にする、（3）グローバルおよびローカルの視覚表現を統合する、という三つの主要な修正を行う。広範な実験により、LLaViTは従来のLLaVA手法を多数のベンチマークで上回り、二倍のパラメータを持つモデルをも凌駕する結果を示した。