敵対的訓練の分析と改善：AGEを用いたDQNエージェントの探索

Analysis and Improvement of Adversarial Training in DQN Agents With Adversarially-Guided Exploration (AGE)

本稿では、Deep Q-Network（DQN）ポリシーのロバスト性を向上させるための敵対的訓練の効果を調査しています。まず、敵対的訓練の形式的な分析を行い、訓練に使用される敵対的摂動と通常の観測の比率に基づくパフォーマンスを評価します。次に、現在の敵対的訓練手法のサンプル効率の低さを考慮し、ε-greedyアルゴリズムとBoltzmann探索を修正した新しい観光手法、アドバイサリー・ガイダンス・エクスプロレーション（AGE）機構を提案します。この探索手法の有効性は、従来の減衰ε-greedy法およびパラメータ空間ノイズ探索アルゴリズムとの比較実験を通じて検証されています。