連続時間強化学習におけるサンプル効率的かつスケーラブルな探索

本研究では、連続時間の強化学習(RL)の問題に焦点を当て、非線形常微分方程式(ODE)を用いて未知のシステムダイナミクスを表現します。提案するアルゴリズムCOMBRLは、外的報酬とモデルのエピステミック不確実性の加重和を最大化し、スケーラブルでサンプル効率の高いアプローチを実現します。実験において、COMBRLは従来の手法よりも優れたスケーラビリティとサンプル効率を示し、複数の深層RLタスクでベースラインを上回る成果を上げました。また、報酬駆動の設定においてサブリニアな後悔を示し、無教師RL設定においてもサンプルの複雑性の限界を提供しています。