異なる表現を用いる: 言語スタイルを用いた脱獄ベクター

本研究では、大規模言語モデル（LLM）がパラフレーズや意味的に同等な脱獄プロンプトに対してどのように堅牢性を評価されるかを考察していますが、言語の多様性が攻撃手段としてあまり注目されていないことに着目しています。具体的には、恐怖や好奇心といった言語スタイルが有害な意図を再定義し、整合性のあるモデルから不安全な反応を引き出す方法を体系的に研究しました。3つの標準データセットからのプロンプトを手作りテンプレートとLLMベースの書き換えを用いて11の異なる言語スタイルに変換し、意味的意図を保持したスタイル強化型の脱獄ベンチマークを構築しました。その結果、スタイルを変えることで脱獄成功率が最大57ポイント向上することがわかりました。恐れ・好奇心・思いやりといったスタイルが最も効果的であり、文脈に応じた書き換えがテンプレート変数を上回りました。最後に、スタイルの中立化処理ステップを導入し、ユーザー入力から操作的なスタイルの手がかりを取り除くことで脱獄成功率を大幅に減少させました。これにより、現在の安全性パイプラインで見過ごされている体系的かつ拡張耐性のある脆弱性が明らかになりました。