RLAF: オートマトンフィードバックからの強化学習

著者が提案するRLAF（Reinforcement Learning from Automaton Feedback）は、複雑な履歴依存報酬構造を持つ環境における強化学習（RL）の課題に対処する新しいアプローチです。この手法では、従来の報酬関数の代わりに、決定性有限オートマトン（DFA）から得られた好みを用いて学習プロセスを導きます。DFAの構造を利用して、軌道に対する好みを生成し、手動の報酬設計を排除します。提案されたフレームワークでは、学習した報酬関数を直接利用する静的アプローチと、報酬関数とポリシーを繰り返し更新する動的アプローチの2つがあります。実験では、提案手法が時間依存性のあるタスクに対する効果的なポリシーを学習し、従来の報酬エンジニアリングやオートマトンに基づく手法を上回る結果を示しました。この方法は、非マルコフ報酬の扱いにおいて優れたスケーラビリティと効率を提供し、従来の報酬モデルの人間依存性を解消する可能性があります。