大型言語モデルにおける普遍的な単回の脱獄メカニズムとしての敵対的詩

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

この記事では、敵対的詩が大型言語モデル（LLM）に対する普遍的な単回の脱獄技術として機能することについての証拠が示されています。研究チームは、25種類の最先端のプロプライエタリおよびオープンウェイトモデルに対して整然とした詩的なプロンプトを使用し、高い攻撃成功率（ASR）を達成しました。特に、90%を超える成功率を示したケースもありました。また、詩的攻撃がCBRN（化学、生物、放射能、核）、操作、サイバー攻撃、制御喪失などのリスク分野にわたって転送可能であることも示されています。標準化されたメタプロンプトを用いて1,200種の有害なプロンプトを詩に変換した結果、ASRは従来のプローズのベースラインより最大で18倍高くなりました。これにより、詩的表現が現行の安全メカニズムを回避する手段として効果的であることが示され、モデルファミリーや安全トレーニングアプローチにおける系統的な脆弱性を浮き彫りにしています。