選択肢としての反応：マルチエージェント強化学習における行動階層の基盤

本論文では、マルチエージェントゲームにおける一般化について検討しています。エージェントの一般性は、訓練中に遭遇していない対戦相手に対してプレイすることで評価されます。目新しいゲームとして、隠された情報と複雑な非遷移的報酬構造を持つ二つのゲームを提案しています。従来の深層強化学習手法は戦略空間を効果的に探索できず、未見の対戦相手に対して一般化の効率が低いことが分かりました。そこで、ゲーム理論の構造に基づく新しい階層的エージェントアーキテクチャを提案します。このアーキテクチャでは、上位層が対戦相手への戦略的反応を選択し、下位層がそれを基本的な行動に実装します。提案した階層的エージェントは未見の対戦相手に対する一般化が可能であることが実験で示されており、従来のベースラインと比較して顕著な効果が観察されました。