深層アクタークリティック安定化によるオフポリシー模倣学習の実現

本論文では、強化学習(RL)における複雑なポリシー学習の不安定性や収束の遅さ、報酬設計の難しさを克服する手法としてオフポリシー模倣学習を提案します。従来の模倣学習(IL)はエキスパートからのデモンストレーションを用いますが、サンプル効率が非常に低いという課題があります。これに対処するために、オフポリシー学習を取り入れた敵対的模倣学習アルゴリズムを開発しました。この手法では、二重Qネットワークに基づく安定化や報酬関数推定なしの価値学習といった補助技術を組み合わせることで、エキスパートの行動に効果的に一致させるために必要なサンプル数を削減します。