この記事では、不完全な遷移予測を扱う強化学習に関する新しいアプローチを提案しています。従来の強化学習は、マルコフ決定過程(MDP)を基盤とし、1ステップの遷移モデルに依存していますが、エネルギー管理や株式投資などの実世界のアプリケーションでは、将来の状態に関するマルチステップ予測を利用できます。これにより、意思決定において追加の利点が得られます。ただし、マルチステップ予測は高次元であり、MDPに単純に組み込むと状態空間が指数的に膨張します。著者たちは、3つの革新を通じてこの問題に対処します。第一に、ベイジアン価値関数を提案し、最適な予測対応ポリシーを特徴付けます。第二に、ベイジアン価値関数に基づいた新たなベルマン-ジェンセンギャップ分析を開発します。第三に、オフラインのベイジアン価値学習とオンラインのリアルタイム適応を分離するBOLA(バイジアンオフライン学習とオンライン適応)という2段階のモデルベース強化学習アルゴリズムを導入します。このアプローチにより、不完全な予測下でもサンプル効率が保たれることを示しています。