HarmNetは、大規模言語モデル(LLM)に対する脱獄攻撃の脆弱性を突くための適応型マルチターン攻撃フレームワークです。このフレームワークは、階層的なセマンティックネットワークであるThoughtNet、フィードバックに基づくクエリ精緻化シミュレーター、リアルタイムで適応攻撃を実行するためのNetwork Traverserで構成されています。HarmNetは、対抗空間を体系的に探求し、 stealthyで成功率の高い攻撃経路を見つけ出します。実験の結果、HarmNetは従来の手法を上回り、特にMistral-7Bにおいて99.4%の攻撃成功率を達成し、これまでのベースラインより13.9%も向上しました。この研究は、2025年の情報セキュリティにおける応用機械学習会議(CAMLIS)での発表が承認されています。