本論文では、マルチモーダル大規模言語モデル(MLLM)の幻覚問題に焦点を当てています。これまでは、追加のデータを用いた訓練や外部・内部情報の取り込みが行われてきましたが、これらは計算コストを伴います。本研究では、視覚トークンに対する注意が不足していることが幻覚の主要因であると指摘し、冗長な視覚トークンが注意を分散させることを示しました。そこで、トレーニングを必要とせず、効果的なメソッド「PruneHal」を提案し、適応型KVキャッシュプルーニングを用いて重要な視覚情報への焦点を強化し、幻覚を軽減します。この方法は追加の訓練を必要とせず、ほぼ追加コストなしで実装可能で、さまざまなデコーディング戦略と統合可能です。実験により、PruneHalがさまざまな評価基準で優れた結果を示すことが確認されました。