arXiv cs.AI

連続時間強化学習におけるサンプル効率的かつスケーラブルな探索

Sample-efficient and Scalable Exploration in Continuous-Time RL

http://arxiv.org/abs/2510.24482v1


本研究では、連続時間の強化学習(RL)の問題に焦点を当て、非線形常微分方程式(ODE)を用いて未知のシステムダイナミクスを表現します。提案するアルゴリズムCOMBRLは、外的報酬とモデルのエピステミック不確実性の加重和を最大化し、スケーラブルでサンプル効率の高いアプローチを実現します。実験において、COMBRLは従来の手法よりも優れたスケーラビリティとサンプル効率を示し、複数の深層RLタスクでベースラインを上回る成果を上げました。また、報酬駆動の設定においてサブリニアな後悔を示し、無教師RL設定においてもサンプルの複雑性の限界を提供しています。