報酬プロファイリングによるポリシー勾配法の安定化

ポリシー勾配法は、強化学習問題に対する効果的なフレームワークとして広く研究されていますが、性能が不安定で収束が遅い問題があります。本論文では、これらの課題を解決するために、報酬プロファイリングという普遍的なフレームワークを提案します。この手法では、高信頼度の性能推定に基づいてポリシーを選択的に更新します。理論的には、この技術が基準となるポリシー勾配法の収束を遅くすることはなく、安定した性能向上を実現することを示しています。また、実験においては、複数の連続制御ベンチマークで、近似最適リターンへの収束が最大1.5倍速く、リターンの分散を1.75倍減少させる結果を得ています。このプロファイリング手法は、複雑な環境におけるより信頼性の高い効率的なポリシー学習の道を提供します。