TD誤差駆動正則化における表現学習を用いた推定バイアスの軽減

Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization

この記事では、連続制御のための決定論的ポリシー勾配アルゴリズムが持つ価値推定バイアスを軽減するための新しい手法が提案されています。これまでのダブルクリティック手法はバイアスを減少させることができましたが、ダブルアクターの探索の可能性はあまり探求されていませんでした。本研究は、時間差誤差駆動正則化（TDDR）を基盤としたダブルアクタークリティックフレームワークで、柔軟なバイアス制御と強化された表現学習を実現するための新たな手法を導入します。具体的には、楽観的な探索と悲観的な推定をバランスするための3つの凸結合戦略を提案しています。また、アクターとクリティックネットワークに拡張された状態と行動の表現を組み込むことで性能を向上させています。実験結果は、提案手法がベンチマークを一貫して上回ることを示し、環境に応じて過大評価と過小評価を異なる方法で利用できることを明らかにしています。