LLM Jailbreak攻撃における戦略発見、自動回収及び進化のための自動化フレームワーク

An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks

大型言語モデル（LLM）の広範な導入に伴い、そのセキュリティはウェブエコシステムの中心的な懸念事項となっています。本論文では、既存の防御戦略を回避できる新たなジャイルブレイク戦略を提唱し、失敗または部分的に成功した攻撃からの有用な情報を抽出し、攻撃の相互作用から自己進化を行うことで、戦略の多様性と適応性を高めています。著者たちはASTRAというフレームワークを提案し、攻撃戦略を自動で発見、回収、進化させることができるメカニズムを導入しました。攻撃の生成だけでなく、毎回の相互作用から再利用可能な戦略を蒐集し、評価する三層の戦略ライブラリも設けています。これにより、ASTRAは平均攻撃成功率82.7%を実現し、従来の基準を大きく上回る結果を示しています。