この記事では、段階的な産業プロセスの自律的制御における特化と集中のバランスを探るための新しいマルチエージェント強化学習のベンチマーク環境を提案しています。この研究は、SortingEnvとContainerGymの二つの既存のベンチマークを統合し、選別と圧縮操作を含む逐次的なリサイクルシナリオを構築しました。研究では、特化したエージェントを用いたモジュラーアーキテクチャとシステム全体を管理するモノリシックエージェントの2つの制御戦略を評価しました。その結果、アクションマスキングなしでは、エージェントが効率的なポリシーを学ぶのに苦労し、モジュラーアーキテクチャが優れた性能を示しました。アクションマスキングを適用すると、両アーキテクチャの性能が大幅に向上し、特化の利点が減少することが示されました。このベンチマークは、産業オートメーションにおける実用的で堅牢なマルチエージェント強化学習ソリューションを探求するための貴重なテストベッドを提供します。