なぜポリシー勾配アルゴリズムは無割引トータルリワードMDPに対して機能するのか

本論文はポリシー勾配法が無割引トータルリワード無限ホライゾンMDPにおいてなぜ機能するのかを分析しています。従来のポリシー勾配手法の多くは割引因子が1未満であることを前提としていますが、最近の研究では大型言語モデルにおいて割引因子が1の無割引環境でのポリシー勾配が利用されています。著者らは、MDPの状態を再帰状態と一時的状態に分類する際、いずれのポリシーも全ての行動に正の確率を割り当てる場合においてもその分類が変わらないことを示しています。また、従来の状態訪問測度が割引因子1の際に曖昧になる可能性があるため、新たに一時的訪問測度を導入し、無割引環境でのポリシー勾配法の適用を正当化します。この研究は、深層強化学習モデルにおけるポリシー勾配の理解を深める重要なステップです。