本研究では、オフラインデータを活用してオンライン強化学習を加速する方法を探求します。提案するのは、価値関数の上限と下限を導出するオフラインデータを用いた二段階のフレームワークで、これによりデータ駆動型のエンベロープを形成し、より柔軟で厳密な近似を可能にします。従来のアプローチに比べ、シェイピング関数に依存せず、確率変数として明示的にモデル化され、フェーズ間の独立性も保証されます。この分析により、オフラインの事前訓練とオンラインの微調整の間の理論的なつながりが提供され、高い確率での後悔の上限が確立されます。実験結果として、タブラーMDPにおいて従来の手法と比べて大幅な後悔の減少が示されました。