強化学習における不確実性とリスクを軽減するための効率的アルゴリズム

Efficient Algorithms for Mitigating Uncertainty and Risk in Reinforcement Learning

この記事では、強化学習における不確実性とリスクを軽減するための3つの主要な貢献が述べられています。第一に、政策勾配と動的計画法(MMDP)の新しい関連性を特定し、割引収益を最大化するマルコフ政策を計算するためのCoordinate Ascent Dynamic Programming (CADP)アルゴリズムを提案しました。CADPはモデルの重みを逐次調整し、局所最適点への単調な政策改善を保証します。第二に、ERM-Bellman演算子の収束条件を確立し、ERM-TRCおよびEVaR-TRCの定常策の存在を証明しました。また、これらの問題に対する最適定常政策を計算するためのエクスポネンシャルバリュー反復法や線形計画法を提案しました。第三に、リスク回避の目的を持つ政策を計算するためのモデルフリーQ学習アルゴリズムを提案し、これらのアルゴリズムが最適なリスク回避価値関数に収束することを厳密に証明しました。