arXiv cs.AI

生き残るためには裏切らざるを得ない:ゲーム理論シナリオによるLLMのジェイルブレイク

"To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios

http://arxiv.org/abs/2511.16278v1


大規模言語モデル(LLM)が普及する中、非専門ユーザーによる危険が増加し、ジェイルブレイク攻撃に関する研究が進んでいます。従来の攻撃は手作りのヒューリスティックや限られた検索空間に依存しており、スケーラビリティに制約がありました。本論文では、新たにゲーム理論に基づく攻撃(GTA)を提案し、LLMの安全性を考慮した相互作用をゲームとして定式化します。これにより、LLMの出力を再パラメータ化し、安全性の制約が特定の文脈で緩和される可能性を示しています。実験では、GTAが95%以上の成功率を達成し、様々なプロトコルやデータセットでその効果を確認しています。また、現実世界のLLMアプリケーションに対するジェイルブレイク実績も報告され、運用中の安全監視が行われていることが強調されています。