arXiv cs.LG

方向性クランプPPO

Directional-Clamp PPO

http://arxiv.org/abs/2511.02577v1


この記事では、Proximal Policy Optimization(PPO)の新しいバリエーションである方向性クランプPPO(DClamp-PPO)について説明しています。PPOは多くの問題においてその堅牢性と効果から、深層強化学習アルゴリズムの中で成功を収めています。DClamp-PPOは、行動が「間違った」方向に進むことをさらにペナルティを与え、その結果として重要度比が特定の範囲を超えた場合に、より急な損失勾配を強制することによって、最適化の妨げとなる要因を軽減します。この方法は、異なる随机シードを用いたさまざまなMuJoCo環境で、PPO及びそのバリエーションを一貫して上回るパフォーマンスを示しています。DClamp-PPOは理論的にはもちろん、実証的にも「間違った」方向へのアップデートを回避し、重要度比を1に近く維持することを証明しています。