長期的な順序なしタスクの強化学習: ブールからカップリング報酬機械へ

Reinforcement Learning for Long-Horizon Unordered Tasks: From Boolean to Coupled Reward Machines

本研究では、強化学習のエージェントが環境の報酬構造を理解するための報酬機械（RM）に関する課題を扱っています。特に、サブタスクの順序が重要でない複雑な非マルコフタスクにおいて、エージェントはRMを利用することでより少ないサンプルから効率的に学ぶことができます。しかし、長期的な問題では、サブタスクの数が増えることにより学習情報が指数的に増加し、学習が困難になります。この限界を克服するために、著者らは3つのRMの一般化を提案しています：1つ目は数値RMで、複雑なタスクをコンパクトに表現でき、2つ目はアジェンダRMで、サブタスクの進捗を追跡し、3つ目はカップリングRMで、各サブタスクに関連した状態を管理します。また、著者たちはカップリングRMを活用した新しい補完的学習アルゴリズム「CoRM」を提案し、実験において長期的な非順序タスクに対するスケーラビリティが向上することを示しています。