本論文では、可逆マルコフ連鎖における期待割引報酬を近似する際に、オフポリシーTD(0)と線形関数近似の収束性を研究しています。オフポリシー学習と関数近似を組み合わせると、アルゴリズムが発散する可能性があることが知られていますが、既存の研究では重要度サンプリングを用いて更新を再重み付けする方法が提案され、複雑さを伴いながら収束を確立しています。本研究では、標準的なアルゴリズムを分析し、可逆マルコフ連鎖に制限することで、この問題にアプローチしています。特に、オフポリシーおよびオンポリシーのプロセス間の差異に基づく割引因子の上限に対して収束保証を示し、文献における「十分に小さい割引因子」の条件を超えて、明示的な境界を設定しました。この収束は確率1で達成され、ベルマン誤差がゼロになります。様々な可逆マルコフ連鎖、例えば1次元ランダムウォークや加重グラフ上のランダムウォークを用いて結果を示しています。