多モーダルモデル編集における一時的盲目性の発見と軽減

この記事では、多モーダルモデル編集（MMED）における誤った知識の修正を目指し、既存の評価方法が成功を過大評価する問題を指摘しています。特に、編集に似たテキストに過剰適合し、視覚情報を無視する「一時的盲目性」という現象を明らかにしました。この現象を克服するために、ランダム画像、無画像、一貫画像という三つの重要な次元をカバーする包括的な局所評価フレームワークを提案し、7つの異なるデータタイプを通じて詳細かつ構造的な分析を行います。また、視覚質問応答用の動的評価「De-VQA」を導入し、交差モーダルの表現を調整するための局所性を意識した敵対的損失を提案しました。実験結果は、提案手法が従来の基準よりも一貫して優れ、一時的盲目性を減少させ、局所性を平均17％向上させることを示しています。