D2C-HRHR: 高リスク・高リターンタスクのためのダブルディストリビューショナルクリティックを用いた離散アクション

D2C-HRHR: Discrete Actions with Double Distributional Critics for High-Risk-High-Return Tasks

本論文では、高リスク・高リターン（HRHR）タスクに対処するための強化学習フレームワークD2C-HRHRを提案します。従来の強化学習手法は、通常のガウスポリシーとスカラー値クリティックに依存しており、HRHRタスクの複雑さに対応できません。HRHRタスクを正式に定義し、ガウスポリシーが最適解への収束を保証できないことを理論的に示しました。本提案手法は、連続アクション空間を離散化して多峰分布を近似し、エントロピー正則化探索を用いてリスクのあるアクションのカバレッジを向上させ、双方向クリティックアーキテクチャを導入して正確な離散値分布の推定を実現します。このフレームワークは高次元アクション空間にスケーラブルであり、ロコモーションや操作のベンチマーク試験において従来手法を上回る結果を示しています。