VisMem: 潜在視覚記憶が視覚と言語のモデルの可能性を引き出す

本論文では、視覚と言語モデル（VLM）が直面する「視覚処理のボトルネック」を克服するために、VisMemという新たなフレームワークを提案しています。具体的には、短期的な視覚記憶と長期的な意味記憶にインスパイアを受けた動的な潜在視覚記憶のモジュールを設けています。このアプローチにより、VLMは推論中に視覚的忠実性と意味的一貫性を維持することができます。多様な視覚ベンチマークでの広範な実験の結果、VisMemは従来のモデルに比べて平均11.8%の性能向上を達成し、新たな潜在空間における記憶強化のパラダイムを確立しました。また、提案された手法は、理解、推論、生成のタスク全般で優れた性能を示しています。