深い暗黙の模倣強化学習による専門家のパフォーマンスを超える

Going Beyond Expert Performance via Deep Implicit Imitation Reinforcement Learning

本論文では、専門家からの完全な状態行動デモが必要な従来の模倣学習の制約を克服するために、深い暗黙の模倣強化学習フレームワークを提案します。このフレームワークは、観察のみのデータセットからの暗黙の模倣学習を深層強化学習と結び付け、専門家の行動をオンライン探査を通じて再構築するアクション推論メカニズムを用います。主なアルゴリズムであるDeep Implicit Imitation Q-Network（DIIQN）は、専門家指導と自己主導型学習のバランスを調整する動的な信頼メカニズムも組み込み、トレーニングの加速を図りながら、専門家のパフォーマンスを超える能力を保持します。また、HA-DIIQNという新しいアルゴリズムを追加し、エージェントの行動セットと専門家の行動セットが異なる状況にも対応しています。実験結果は、DIIQNが標準のDQNと比較して最大130%のエピソードリターンを達成し、従来の暗黙的模倣手法を超えたことを示しています。HA-DIIQNは、異なる行動の設定においても従来手法より最大64%速く学習します。