オープンエージェントシステムにおけるマルチエージェント強化学習の信用割当の課題

Challenges in Credit Assignment for Multi-Agent Reinforcement Learning in Open Agent Systems

本記事では、マルチエージェント強化学習（MARL）の発展におけるオープンシステムのダイナミクスの理解が重要であることが論じられています。特に、エージェントが出入りできるエージェントのオープン性、登場する新しいタスクや進化する既存のタスクがあるタスクのオープン性、エージェントの能力や行動が時間と共に変化するタイプのオープン性の3種類があります。信用割当問題（CAP）は、個々のエージェントが全体のパフォーマンスにどのように貢献しているかを特定するもので、オープンな環境ではその分析が複雑になります。伝統的な信用割当手法は静的なエージェント集団や固定されたタスクを前提としているため、オープンシステムには不適切であることが指摘されています。新たなオープン性のサブカテゴリを提案し、エージェントの出入りやタスクのキャンセルといったイベントが環境の安定性の仮定を破る様子を概念的に分析した後、実証的な研究を行い、オープン環境において信用誤割当が直接的に関与していることが示されました。