堅牢なゼロショット強化学習に向けて

この記事では、ゼロショット強化学習（RL）の最近の進展と、それがどのようにして事前学習した汎用ポリシーを特定の新しいタスクに適応させるかを探ります。しかし、従来の手法であるForward-Backward表現（FB）には表現力が不足し、オフライン学習中の分布外（OOD）行動による外挿エラーがバイアスを引き起こし、性能を低下させることが見出されました。この問題を克服するために、著者たちはBREEZE（Behavior-REgularizEd Zero-shot RL with Expressivity enhancement）という新たなフレームワークを提案しており、これは学習の安定性、ポリシー抽出能力、表現学習の質を向上させることを目的としています。BREEZEは、タスクに条件付けされた拡散モデルを用いて高品質の行動分布を生成し、従来のオフラインゼロショットRL法と比較して優れた性能と安定性を示しています。