2人ゼロサムゲームのための深層SORミニマックスQ学習

本研究では、2人ゼロサムゲームの問題について考察しています。これまでの文献では、逐次過剰緩和Q学習アルゴリズムが開発され、関連するQ-ベルマン演算子に対する収束因子を低下させ、価値反復ベースの手法を速くすることが示されていますが、これは表形式の設定のみが考慮されており、高次元の状態-行動空間を扱う近似関数の設定は考慮されていませんでした。このため、高次元空間に適した深層逐次過剰緩和ミニマックスQ学習アルゴリズムを提案し、深層ニューラルネットワークを関数近似器として組み込みました。本アルゴリズムの有限時間内収束を証明し、数値実験を通じて既存のQ学習アルゴリズムに対する本手法の有効性を示しました。また、重要な逐次過剰緩和パラメータの異なる値の効果についてのアブレーションスタディも実施しました。