arXiv cs.AI

可観測データから診断へ:クラウドシステムにおけるインシデント管理の進化するマルチエージェントシステム

From Observability Data to Diagnosis: An Evolving Multi-agent System for Incident Management in Cloud Systems

http://arxiv.org/abs/2510.24145v1


本記事では、クラウドシステムのインシデント管理(IM)における新しい手法であるOpsAgentという自律的なマルチエージェントシステムを提案しています。従来の手動IMが抱える負担や誤りの可能性を軽減するため、OpsAgentはさまざまな可観測データを構造化されたテキスト記述に変換するトレーニング不要のデータプロセッサを利用します。また、診断推論を透明かつ監査可能にするための協調フレームワークも提供します。さらに、双方向の自己進化メカニズムを導入し、内部モデルの更新と外部経験の蓄積を統合して、運用ループを閉じることを目指しています。OPENRCAベンチマークにおける包括的な実験により、OpsAgentは一般化可能で解釈可能、コスト効率が高く、持続可能な運用が実現できることが示されました。