不変ポリシー最適化: 強力な一般化に向けての強化学習

Invariant Policy Optimization: Towards Stronger Generalization in Reinforcement Learning

強化学習における重要な課題は、訓練中に経験した運用領域を超えて一般化できるポリシーを学習することです。この論文では、不変性の原則に基づいてこの課題にアプローチします。具体的には、エージェントは、すべての訓練ドメインに対して最適なアクション予測器を構築できる表現を見つける必要があります。この不変ポリシーにより、成功するアクションの原因を特定し、一般化性能を向上させます。新たに提案されたアルゴリズム「不変ポリシー最適化（IPO）」は、この原則を実装し、訓練中に不変のポリシーを学習します。従来のポリシー勾配法と比較し、直線二次レギュレータやグリッドワールド問題、さまざまな物理特性を持つドアを開くロボットの学習タスクにおいて、目に見えないドメインでの一般化性能が大幅に向上したことを示しています。