本記事では、多エージェントシステムにおける制御フロー乗っ取り攻撃とその防御手法について論じています。制御フロー乗っ取り攻撃は、エージェント間の通信を操作し、安全でない行動を引き起こすことでシステムを危険にさらし、機密情報を流出させるものです。最近提案された防御策であるLlamaFirewallは、エージェントの呼び出しが元の目的に関連しているかを確認しますが、著者たちはこの手法が高度な言語モデルであっても攻撃を回避できると指摘しています。彼らは、多エージェントシステムにおける安全性と機能性の目標が根本的に矛盾していると述べ、これを緩和する新たな防御策ControlValveを提案します。ControlValveは、許可された制御フローグラフを生成し、すべての実行がこれに従うことを強制する仕組みです。この研究は、マルチエージェントシステムのセキュリティを向上させる重要な知見を提供します。