この論文では、大規模言語モデル(LLM)の普及によるセキュリティリスク、特にバイパスが可能な「Jailbreak」プロンプトに関する課題を検討しています。LLMの攻撃、防御、および脆弱性を整理するための包括的な多層分類法を提案し、再現可能な評価のために脅威モデルとコスト仮定を機械可読なプロファイルに形式化しています。また、攻撃や防御の標準化された比較ができるオープンソースの評価ツールキットを導入し、最大規模の注釈付きデータセット「JAILBREAKDB」を公開しています。研究の断片化を統一し、今後の研究のための厳密な基盤を提供し、高リスクな展開に適した信頼性の高いLLMの開発を支援することを目指しています。