オンラインインタラクションを伴う分布ロバストオフダイナミクス強化学習のサンプル複雑性

Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction

本研究では、強化学習(RL)の一形態であるオフダイナミクス設定におけるサンプル複雑性を扱っています。この設定では、訓練ダイナミクスとデプロイメントダイナミクスが異なるため、強化学習を頑健なマルコフ決定過程(RMDP)として捉えます。従来の研究では、生成モデルや良好な状態カバレッジを持つ事前収集データセットへのアクセスが想定されていましたが、本研究ではオンライン環境との相互作用に制限されたエージェントのより現実的かつ困難な状況を考察します。新たに導入した「最上訪問比」を用いて、訓練ダイナミクスとデプロイメントダイナミクスの不一致を測定します。この比が無限大の場合、オンライン学習は指数的に困難になることを示しました。さらに、$f$-ダイバージェンスに基づく遷移不確実性を持つオンラインRMDPに対し、サブリニアレグレットを達成するための初の計算効率的アルゴリズムを提案しました。数値実験を通じて理論結果の検証も行いました。