本研究では、マルチエージェント強化学習(MARL)の進展において必要な厳しいベンチマークを提示します。既存のベンチマークは短期間のタスクに焦点を当てており、長期依存性や一般化能力を十分に評価できていません。この問題を解決するために、複数のエージェントをサポートし、幅広い能力を単一環境内で評価する人気のオープンエンド強化学習環境「Craftax」の拡張版「Craftax-MA」を提案します。JAXで書かれたこの環境は、2億5千万回の環境相互作用を一時間未満で完了するほどの高速性を誇ります。また、「Craftax-Coop」と呼ばれる拡張も発表し、異種のエージェント間の協力を求める複雑なメカニクスが導入されています。既存のアルゴリズムが直面する課題を分析し、このベンチマークがMARLの長期的な研究を促進する可能性を示しています。