有限時間ホライズンのマルコフ決定過程におけるノーリグレット・トンプソンサンプリングとガウス過程

No-Regret Thompson Sampling for Finite-Horizon Markov Decision Processes with Gaussian Processes

この記事では、トンプソンサンプリング（TS）を用いた有限時間ホライズンのマルコフ決定過程における新たな理論的枠組みを提案します。特に、ガウス過程による報酬と遷移の共同事前分布を考慮し、エピソディック強化学習におけるノーリグレット保証を確立しました。著者たちは、$K$エピソードのホライズン$H$に対する後悔境界を$ ilde{igO}( ext{sqrt}(KH ext{Gamma}(KH)))$と証明し、この分析で、価値関数の非ガウス性やベルマン更新の再帰構造といった課題にも対処しています。これにより、強化学習におけるTSの理解が進み、有限時間ホライズンのマルコフ決定過程における構造的仮定やモデルの不確実性がその性能に与える影響が強調されています。