行動ポリシー最適化：オフポリシー強化学習のための証明された低分散リターン推定

Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning

本論文では、強化学習アルゴリズムが直面するサンプル効率の低下やトレーニングの不安定性を改善するために、オフポリシー評価の新しい結果を活用します。特に、行動ポリシーを適切に設計することで、オフポリシーデータを収集し、低分散のリターン推定値を得ることが可能であることを示しています。この発見は、データをオンラインで収集する際も役立ち、ポリシー評価と改善が交互に行われることを前提としています。本研究では、特に1つの行動ポリシーから収集されるデータを用いたポリシー改善に注目し、実験を通じてサンプル効率とパフォーマンスの向上を示しました。このアプローチにより、さまざまな環境で優れた結果が確認されました。