本論文では、LLM(大規模言語モデル)を利用して、適応型敵対的テキストを生成するための新しい攻撃フレームワーク「Static Deceptor(StaDec)」と「Dynamic Deceptor(DyDec)」を提案しています。これにより、LLMの理解を基にしながら、オリジナルのテキストと意味的に類似しつつ、ターゲットのLLMを騙す自然な敵対的入力を生成することが可能になります。従来の外部ヒューリスティックに依存せず、自動化されたLLM駆動のパイプラインを使用することで、攻撃手法はLLMの進化に応じて進化し、攻撃者に知られていないモデル間でも強い移転可能性を示します。この研究はLLMの堅牢性を自己評価するための体系的アプローチを提供し、コードやデータも公開しています。