この記事では、エージェントと環境の共同設計を最適化する手法として、拡散モデルを用いた新たなフレームワーク「Diffusion Co-Design(DiCoDe)」が提案されています。このフレームワークは、エージェントのポリシーと環境の設定を jointly 最適化し、システム性能の向上を目指します。特に、高次元の環境設計空間でスケーラブルかつサンプル効率の良い方法を求める中、DiCoDeは二つの革新を導入しています。一つ目は、「Projected Universal Guidance(PUG)」という手法で、報酬を最大化する環境を探索可能にし、障害物間の空間的分離などの制約を遵守します。二つ目は、強化学習の評価者からの知識を共有する「クリティック蒸留メカニズム」を開発し、エージェントポリシーの進化に適応できるようにします。この手法により、倉庫自動化や多エージェント経路探索、風力発電の最適化といった課題において、従来の最先端技術を超える成果を収めています。特に、倉庫環境では39%の報酬向上を果たし、66%のシミュレーションサンプルを削減しています。