arXiv cs.AI

AdversariaLLM:LLMロバスト性研究のための統一的でモジュール式のツールボックス

AdversariaLLM: A Unified and Modular Toolbox for LLM Robustness Research

http://arxiv.org/abs/2511.04316v1


AdversariaLLMは、大規模言語モデル(LLM)における安全性とロバスト性の研究のためのツールボックスです。急速な研究の拡展に伴い、実装やデータセット、評価手法が断片化し、再現性や比較の難しさが課題となっています。このツールボックスは、再現性、正確性、拡張性を重視して設計されており、12種類の敵対的攻撃アルゴリズムや、危険性、過剰拒否、ユーティリティ評価を網羅した7つのベンチマークデータセットを統合しています。また、Hugging Faceを通じて多様なオープンウエイトのLLMにアクセス可能です。さらには、計算資源の追跡や決定論的結果、分布評価技術など、比較と再現性を高めるための高度な機能も実装されています。これにより、LLMの安全性に関する透明で比較可能、かつ再現可能な研究の基盤を築くことを目的としています。