平均報酬に対する有限時間境界の適合Q-反復

本研究では、関数近似を用いた平均報酬型オフライン強化学習に関する初のサンプル複雑性の結果を提示します。従来の研究は特に割引報酬設定に多くなされており、平均報酬設定はあまり注目されていませんでした。また、これまでのアプローチはいずれもエルゴード性やMDPの線形性など制約の厳しい仮定に依存していました。本論文では、弱いコミュニケーションを持つMDPに対し、Anchored Fitted Q-Iteration手法を提案し、これが有限時間分析に対して重要であることを示します。さらに、データセットが単一のトラジェクトリから生成される設定への有限時間分析の拡張も行います。