信頼できないAIエージェントの制御プロトコルの評価

AIシステムが進化し広く展開される中で、その安全な操作を確保することが重要になっています。この記事では、信頼できないAIエージェントからのリスクを軽減するために、AI制御プロトコルを評価します。SHADE-Arenaという多様なエージェント環境のデータセットを用いて、さまざまな制御プロトコルの効果と適応的な敵に対する堅牢性を評価しました。ブルーチームプロトコルとして、信頼できるモデルへのバイパス、再サンプリング、重要なアクションの先送りをテストした結果、再サンプリングと重要なアクションの先送りが最も安全性を高めることがわかりました。一方、レッドチームの攻撃戦略に対して、再サンプリングに関する知識を持つ攻撃政策は成功率を向上させましたが、重要なアクションの先送りは高い堅牢性を示し、ポリシーの内部へのアクセスを拒否することがいかに重要であるかを示しました。