ForgeDAN: 整合された大規模言語モデルを脱獄するための進化的フレームワーク

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

この記事では、大規模言語モデル（LLM）の急速な普及がもたらす変革的なアプリケーションと新たなセキュリティリスクについて論じています。特に、整合性を確保するための安全策を迂回し、有害な出力を引き出す脱獄攻撃に焦点を当てます。従来の自動デモ生成手法（例：AutoDAN）は、限られた変異多様性や浅い適合性評価、脆弱なキーワードベースの検出に悩まされています。これらの課題を解決するために、ForgeDANという新しい進化的フレームワークを提案します。ForgeDANは、文字、単語、文レベルのテキストの摂動を取り入れて攻撃の多様性を高め、テキスト類似性モデルに基づく意味的適合性評価を用いて攻撃対象のLLMに対して意味的に関連する有害な出力を導くプロセスを構築します。また、LLMベースの分類器を使用してモデルの遵守性と出力の有害性を共同で評価し、誤検知を減少させ、検出効果を改善します。これにより、ForgeDANは従来の最先端技術と比較して高い脱獄成功率を達成しつつ、自然さとステルス性も維持しています。