本研究では、オープンウェイトモデルの安全性とセキュリティを評価し、8種類の大規模言語モデル(LLM)に対する脆弱性を特定しました。自動化された対敵テストを用いて、単一ターンおよび多ターンでのプロンプト注入や脱獄攻撃に対する各モデルの耐性を測定しました。結果、全モデルにわたって広範な脆弱性が確認され、多ターン攻撃の成功率は25.86%から92.78%に達し、これは単一ターンの基準に対して2倍から10倍の増加を示しました。特に能力重視のモデルは多ターン攻撃に対して高い感受性を示す一方、安全性を重視した設計のモデルはより均衡の取れた性能を発揮しました。オープンウェイトモデルの導入には、運用上および倫理的なリスクが存在し、セキュリティ対策が不可欠であることが示唆されました。