洞察から悪用へ：適応型敵対的テキスト生成のためのLLM協力の活用

From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation

本論文では、LLM（大規模言語モデル）を利用して、適応型敵対的テキストを生成するための新しい攻撃フレームワーク「Static Deceptor（StaDec）」と「Dynamic Deceptor（DyDec）」を提案しています。これにより、LLMの理解を基にしながら、オリジナルのテキストと意味的に類似しつつ、ターゲットのLLMを騙す自然な敵対的入力を生成することが可能になります。従来の外部ヒューリスティックに依存せず、自動化されたLLM駆動のパイプラインを使用することで、攻撃手法はLLMの進化に応じて進化し、攻撃者に知られていないモデル間でも強い移転可能性を示します。この研究はLLMの堅牢性を自己評価するための体系的アプローチを提供し、コードやデータも公開しています。