連続時間オフライン強化学習のためのオペレータモデル

連続時間の確率過程は多くの自然および工学的システムの基盤となっており、医療、自動運転、産業制御などの分野では、環境との直接的な相互作用が安全でない場合や実用的でない場合が多く、歴史的データからのオフライン強化学習が求められています。しかし、オフラインデータセットからポリシーを学習する際の近似誤差に関する統計的理解は限られています。本研究では、強化学習をハミルトン・ヤコビ・ベルマン方程式に関連付け、動的計画法の再帰に基づくオペレータ理論的アルゴリズムを提案します。具体的には、再生カーネルヒルベルト空間で学習された制御拡散過程の無限小生成子を用いて世界モデルを表現します。統計学習法とオペレータ理論を統合することで、価値関数の全体的な収束を確立し、スムースさや安定性などのシステム特性に基づく有限サンプル保証を導き出します。理論的および数値的な結果は、オペレータベースのアプローチが連続時間の最適制御を使用したオフライン強化学習の解法として有望であることを示唆しています。