生き残るためには裏切らざるを得ない：ゲーム理論シナリオによるLLMのジェイルブレイク

大規模言語モデル（LLM）が普及する中、非専門ユーザーによる危険が増加し、ジェイルブレイク攻撃に関する研究が進んでいます。従来の攻撃は手作りのヒューリスティックや限られた検索空間に依存しており、スケーラビリティに制約がありました。本論文では、新たにゲーム理論に基づく攻撃（GTA）を提案し、LLMの安全性を考慮した相互作用をゲームとして定式化します。これにより、LLMの出力を再パラメータ化し、安全性の制約が特定の文脈で緩和される可能性を示しています。実験では、GTAが95％以上の成功率を達成し、様々なプロトコルやデータセットでその効果を確認しています。また、現実世界のLLMアプリケーションに対するジェイルブレイク実績も報告され、運用中の安全監視が行われていることが強調されています。