HV攻撃：マルチモーダル検索増強生成のための階層型視覚攻撃

HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation

本研究では、マルチモーダル検索増強生成（MRAG）のための新しい攻撃手法「HV攻撃」を提案します。MRAG技術は大規模マルチモーダルモデルの能力を向上させる一方で、新たな安全性の問題も抱えています。特に、知識を悪用された攻撃に対してMRAGシステムが脆弱であることが現れていますが、本研究は異なるアプローチを取ります。具体的には、ユーザーの画像入力に目立たない摂動を追加することによってMRAGを視覚的に攻撃します。この方法の挑戦は、ファインチューニングされたリトリーバーや大規模生成器の堅牢性にあります。提案する階層型視覚攻撃は、MRAGの生成器に対して、マルチモーダルクエリと増強知識の2つの入力をずらし、生成を混乱させるものです。実験結果において、OK-VQAおよびInfoSeekのデータセットでの実施によって、リトリーバルと生成性能が顕著に低下することが示されました。