本研究では、対抗詩が大規模言語モデル(LLMs)のための普遍的な単発脱獄技術として機能することに関する証拠が提示されています。25の先端的なモデルにおいて、詩的なプロンプトを用いた攻撃が高い成功率を示し、一部のプロバイダーでは90%以上に達することが確認されました。また、対抗的なプロンプトがさまざまなリスクドメインに跨いで転送可能であることが示されました。1,200の有害なプロンプトを詩形式に変換したところ、その成功率はプローズのベースラインに比べて最大18倍となりました。手作りの詩に対しては62%、メタプロンプト変換においては約43%の脱獄成功率が観察され、非詩的なベースラインと比較して大幅に優れた結果を示しました。これにより、スタイルの変化が現行の安全メカニズムを回避する可能性があることが示され、現行のアライメント手法と評価プロトコルの基本的な限界が示唆されています。