arXiv cs.AI

RLAF: オートマトンフィードバックからの強化学習

RLAF: Reinforcement Learning from Automaton Feedback

http://arxiv.org/abs/2510.15728v1


著者が提案するRLAF(Reinforcement Learning from Automaton Feedback)は、複雑な履歴依存報酬構造を持つ環境における強化学習(RL)の課題に対処する新しいアプローチです。この手法では、従来の報酬関数の代わりに、決定性有限オートマトン(DFA)から得られた好みを用いて学習プロセスを導きます。DFAの構造を利用して、軌道に対する好みを生成し、手動の報酬設計を排除します。提案されたフレームワークでは、学習した報酬関数を直接利用する静的アプローチと、報酬関数とポリシーを繰り返し更新する動的アプローチの2つがあります。実験では、提案手法が時間依存性のあるタスクに対する効果的なポリシーを学習し、従来の報酬エンジニアリングやオートマトンに基づく手法を上回る結果を示しました。この方法は、非マルコフ報酬の扱いにおいて優れたスケーラビリティと効率を提供し、従来の報酬モデルの人間依存性を解消する可能性があります。