IPI中心のLLMエージェント防御フレームワークの分類、評価と活用

Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks

本稿では、機能呼び出し機能を持つ大規模言語モデル（LLM）ベースのエージェントが間接的プロンプトインジェクション（IPI）攻撃に対して脆弱である現状に対処します。多くのIPI中心の防御フレームワークが登場していますが、その多くはばらばらで、統一的な分類や包括的な評価が不足しています。著者たちは初めてIPI中心の防御フレームワークについての包括的分析を行い、5つの次元に沿った詳細な分類を提供します。また、代表的な防御フレームワークのセキュリティと使いやすさを徹底的に評価し、防御の失敗に基づいて6つの根本原因を特定します。これに基づいて、特定のフレームワークを狙った3つの新しい適応型攻撃を設計し、防御の深刻な欠陥を示します。本研究は、今後のより安全で使いやすいIPI中心のエージェント防御フレームワークの開発に役立つ基盤を提供します。