確率的報酬機械による強化学習

本論文では、スパースな報酬が複雑な行動のシーケンスに依存する強化学習問題を扱うための「報酬機械」という手法を紹介します。既存の報酬機械学習アルゴリズムは、ノイズのない理想的な状況に依存していますが、本研究では「確率的報酬機械」と呼ばれる新しいタイプの報酬機械と、それを学習するためのアルゴリズムを提案します。このアルゴリズムは制約解決に基づいており、強化学習エージェントの探索から最小限の確率的報酬機械を学習します。既存の報酬機械用の強化学習アルゴリズムとも簡単に組み合わせることができ、最適なポリシーに収束することが保証されます。二つのケーススタディを通じて、このアルゴリズムの効果を実証し、ノイズのある報酬関数を処理する従来の手法や単純なアプローチと比較して優れた性能を示しました。