ゼロショット強化学習のための統一フレームワーク

ゼロショット強化学習（RL）は、追加のトレーニングや計画を行うことなく、ダウンストリームタスクを解決できる一貫したエージェントを育成するための手法として注目されています。本稿では、ゼロショットRLのための初めての統一フレームワークを提案し、既存のアプローチを整理するための一貫した表記法と分類を導入します。主要な分類として、報酬から政策へのエンドツーエンドマッピングを学習する「直接表現」と、価値関数のサブストラクチャを活用して表現を分解する「合成表現」に分けられます。このフレームワークを通じて、手法間の共通点や重要な違いを明らかにし、ゼロショット領域における後続特徴メソッドの性能に新たな視点を提供します。既存の研究を統一的にまとめることで、今後のゼロショットRLの研究の基盤を提供し、より一般的なエージェントの開発への明確な道筋を提示します。