方向性クランプPPO

この記事では、Proximal Policy Optimization（PPO）の新しいバリエーションである方向性クランプPPO（DClamp-PPO）について説明しています。PPOは多くの問題においてその堅牢性と効果から、深層強化学習アルゴリズムの中で成功を収めています。DClamp-PPOは、行動が「間違った」方向に進むことをさらにペナルティを与え、その結果として重要度比が特定の範囲を超えた場合に、より急な損失勾配を強制することによって、最適化の妨げとなる要因を軽減します。この方法は、異なる随机シードを用いたさまざまなMuJoCo環境で、PPO及びそのバリエーションを一貫して上回るパフォーマンスを示しています。DClamp-PPOは理論的にはもちろん、実証的にも「間違った」方向へのアップデートを回避し、重要度比を1に近く維持することを証明しています。