Genesis: LLMウェブエージェントのレッドチーミングにおける進化する攻撃戦略

この記事では、LLMエージェントが複雑なウェブタスクを自動化する際の新たなセキュリティリスクについて考察しています。従来の攻撃手法は、手動で作成された戦略やオフラインでトレーニングされた静的モデルに依存しており、このため多様な環境における一般化が難しいと指摘しています。新しいフレームワーク「Genesis」は、攻撃者、評価者、戦略家の3つのモジュールで構成され、連続的な攻撃戦略の発見と進化を目指しています。攻撃者は遺伝的アルゴリズムを用いて対立的な攻撃を生み出し、評価者がその反応を評価、戦略家が効果的な戦略を把握して戦略ライブラリを成長させることで、攻撃手法の改善を図ります。この手法により、さまざまなウェブタスクでの実験が行われ、新しい戦略の発見が実証されています。