arXiv cs.AI

対抗的なプロンプトにおけるマルチエージェントシステムの弱点の暴露

Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting

http://arxiv.org/abs/2511.10949v1


本論文では、LLM(大規模言語モデル)に基づくエージェントがマルチエージェントシステム(MAS)においてどのように展開され、現実のアプリケーションに向けて進化しているのかを探ります。特に、マルチエージェント設計によってもたらされる脆弱性の理解が求められている中、SafeAgentsという統一的で拡張可能なフレームワークを提案します。このフレームワークは、計画構築戦略やエージェント間のコンテキスト共有など、設計選択が対抗的なプロンプトへの感受性にどのように影響するかを系統的に明らかにします。また、Dharmaという診断手法を導入し、マルチエージェントパイプライン内の弱点を特定することを支援します。研究は、広く採用されている5つのマルチエージェントアーキテクチャにわたり、データセットを用いて行われ、一般的な設計パターンに対する重要な脆弱性が明らかになりました。特に、指示を亜エージェントに委譲する集中型システムは、有害なオブジェクティブを隠し、堅牢性を低下させることが示されています。本記事は、MASにおけるセキュリティ意識の高い設計の重要性を強調しています。