arXiv cs.AI

合成データを用いたAIエージェント攻撃の最適化

Optimizing AI Agent Attacks With Synthetic Data

http://arxiv.org/abs/2511.02823v1


AIの導入がますます複雑化し、重要性が増す中、リスクを推定することの重要性が高まっています。本研究では、限られたデータ環境における攻撃ポリシーの最適化手法を提案します。具体的には、攻撃能力を5つのスキル(疑念モデリング、攻撃選択、計画合成、実行、微細化)に分解し、それぞれのコンポーネントを個別に最適化します。データの制約を克服するために、攻撃の動態を確率的にモデル化し、そのシミュレーションを使用して攻撃ハイパーパラメータを最適化します。この過程を通じて、攻撃の強度を大幅に向上させ、初期の安全スコア0.87を0.41に低下させることに成功しました。