マルコフ決定過程のためのブラックウェルオンライン学習

本研究は、マルコフ決定過程（MDP）をオンライン最適化の観点から新たに解釈することを提案します。この文脈では、MDPの方策が意思決定変数として捉えられ、対応する価値関数が環境からの報酬フィードバックとして扱われます。この解釈に基づき、MDPにより誘発されるブラックウェルゲームを構築し、後悔最小化、ブラックウェル接近可能性理論、MDPの学習理論との関連を明らかにします。具体的には、接近可能性理論から、オフライン計画のためのブラックウェル価値反復法と、オンライン学習のためのブラックウェル$Q$-学習を提案し、どちらも最適解に収束することが示されています。理論的保証は数値実験によって裏付けられています。