オフライン強化学習のための適応型近隣制約Q学習

オフライン強化学習（RL）は、分布外（OOD）アクションによって引き起こされる外挿誤差に悩まされています。これに対処するため、通常、オフラインRLアルゴリズムはアクション選択に制約を設けますが、密度、サポート、サンプル制約にはそれぞれ限界があります。密度とサンプル制約は過度に保守的であり、サポート制約は行動ポリシーを正確にモデル化するのが難しいという課題があります。これらの問題を克服するために、本研究ではデータセットアクションの近隣の集合に基づいてアクション選択を制限する新しい近隣制約を提案します。理論的には、この制約は特定の条件下で外挿誤差を制限し、行動ポリシーのモデル化なしでサポート制約を近似可能です。また、データポイントごとに近隣半径を調整することで、適応型の保守性を維持します。実際には、データの質を適応基準として用い、適応型近隣制約を設計しました。効率的な二階最適化フレームワークを基に、Adaptive Neighborhood-constrained Q Learning（ANQ）というシンプルで効果的なアルゴリズムを開発し、この制約を満たすターゲットアクションでQ学習を行います。実験では、ANQは最新のオフラインRLベンチマークで優れた性能を示し、ノイズや限られたデータのシナリオでも高いロバスト性を発揮します。