MIR: 相互内因報酬によるエピソード型マルチエージェント強化学習における効率的な探索

MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward

エピソード報酬は強化学習において大きな課題となります。内因報酬手法は単一エージェントの強化学習では効果的ですが、マルチエージェント強化学習（MARL）への適用は難しさがあります。その主な要因は、(1) 探索空間が広がるにつれて報酬に至る共同行動軌跡の指数的まばらさ、(2) チーム状態に影響を与える共同行動を考慮しきれないことです。この課題に対応するため、この論文では相互内因報酬（MIR）を提案します。MIRは、他のエージェントに影響を与える行動を探索するための個々のエージェントのインセンティブを与え、オリジナル戦略と組み合わせることでチームの探索を促進し、アルゴリズムの性能を向上させます。実験では、代表的な単一エージェントのMiniGrid環境を拡張してMiniGrid-MAという一連のMARL環境を作成し、提案手法が最先端アプローチに対して優れた性能を示すことが検証されました。