arXiv cs.AI

ゼロショット協調のためのスケーラブルな集団トレーニング

Scalable Population Training for Zero-Shot Coordination

http://arxiv.org/abs/2511.11083v1


この記事では、ゼロショット協調(ZSC)に焦点を当てた強化学習の研究が進展していることを紹介しています。ZSCは、見たことのない協力者と調整を行う能力を強化することを目的としており、特に集団ベースのトレーニングが優れたパフォーマンスを示しますが、現行の手法は計算資源に制約され、小規模な集団での多様性最適化に偏っているという問題があります。これを解決するために、著者らはスケーラブルな集団トレーニング(ScaPT)という新しいフレームワークを提案しました。このフレームワークは、エージェント間でパラメータを選択的に共有するメタエージェントと、集団の多様性を保証する相互情報正則化器の2つの重要な要素で構成されています。Hanabiの代表的なフレームワークを用いてScaPTの効果を実証し、その優位性を確認しました。