モデルベースの探索拡張によるオフポリシー強化学習

強化学習(RL)では探索が基本であり、エージェントが環境の構造を効果的に発見し、最適なパフォーマンスを達成するために重要です。従来の探索手法は、能動的探索と受動的探索の2つに大別されます。能動的探索はポリシーに確率的要素を導入するが、高次元環境では米潮に課題があります。一方、受動的探索はリプレイバッファ内の遷移を優先的に選ぶが、サンプルの多様性が制約されます。本研究では、受動的探索の制約を克服するために、モデル生成探索（MoGE）を提案しています。これは、過小探索された重要状態を生成し、遷移モデルを用いてダイナミクスが一貫した経験を合成することで探索を拡張します。MoGEは、重要状態を合成する拡散ベースの生成器と、エージェントの学習のための重要な遷移を構築するための1ステップ想像ワールドモデルの2つの要素で構成されています。実験結果は、MoGEが探索とポリシー学習を効果的に統合し、複雑な制御タスクでのサンプル効率とパフォーマンスの著しい向上を実現することを示しています。