この記事では、マルチエージェントAIシステムにおける静的故障(ドリフト、サイクル、出力の欠落など)を検出する手法が紹介されています。これらの故障は非決定論的特性のため、発見が困難です。著者らは、ユーザーの行動やエージェントの非決定性、大規模言語モデルの変動を捉えるデータセット作成パイプラインを提案し、合計4,275件と894件の軌跡を含む2つのベンチマークデータセットをキュレーション・ラベリングしました。ベンチマークに基づく異常検出手法の評価から、監視学習(XGBoost)と半監視学習(SVDD)が高い精度(それぞれ98%および96%)で機能することを示しています。本研究はマルチエージェントAIシステムにおける異常検出の体系的研究を提供し、今後の研究促進のためのデータセットやベンチマーク、洞察を提供します。