AutoAdv: 大規模言語モデルのマルチターン脱獄のための自動敵対的プロンプティング

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models

本記事では、AutoAdvという新しいフレームワークを提案しています。このフレームワークは、大規模言語モデル（LLMs）が持つ脆弱性に対処するため、マルチターン脱獄攻撃を自動化することを目的としています。従来の評価手法が単純な一回の対話に焦点を当てるのに対し、AutoAdvは最大95％の攻撃成功率を達成し、特にLlama-3.1-8Bにおいて6ターン以内での成果を示しています。AutoAdvは、成功した攻撃から学ぶパターンマネージャー、失敗モードに基づいてサンプリングパラメータを調整する温度マネージャー、そして有害なリクエストを隠して徐々に精緻化する二段階の書き換え戦略の3つのメカニズムを組み合わせています。商業およびオープンソースのモデルに対する広範な評価により、既存の安全メカニズムの脆弱性が確認され、特にマルチターン攻撃が一回ターンアプローチに比べて一貫して優れた結果を示しています。これは、単一ターンの相互作用に最適化された調整戦略が、長期的な会話において堅牢性を維持できないことを示唆しており、マルチターン対応の防御手法の必要性が高まっています。