VERA-V: ビジョン・言語モデルの脱獄のための変分推論フレームワーク

この記事では、視覚的推論を拡張したビジョン・言語モデル（VLM）に対して新たな脆弱性を探るフレームワーク「VERA-V」が提案されています。従来の手法は弱いテンプレートに依存し、攻撃設定が単一であるため、発見できる脆弱性の範囲が狭いという課題があります。VERA-Vは、この問題を解決するために、ペアのテキストと画像のプロンプトに対する結合後分布を学習する変分推論の枠組みを提供します。この手法により、モデルの防御を回避するアドバーサリアル入力を生成可能です。さらに、ショートサンプルでの効率的な攻撃のために、軽量の攻撃者を訓練し、多様な脱獄手法の生成を実現しています。実験では、VERA-Vが最先端のベースラインに対して、攻撃成功率を最大53.75%向上させる成果を挙げています。