ハイブリッド差分報酬：協調運転における効率的なマルチエージェント強化学習のための時間差分と行動勾配の統合

Hybrid Differential Reward: Combining Temporal Difference and Action Gradients for Efficient Multi-Agent Reinforcement Learning in Cooperative Driving

この記事では、高頻度の連続制御を必要とするマルチビークル協調運転タスクにおいて、従来の状態基盤報酬関数が直面する「報酬の消失」問題を解決するための新しいハイブリッド差分報酬(Hybrid Differential Reward, HDR)メカニズムを提案しています。このメカニズムは、時間的準平常性と行動の物理的接近性が従来の報酬信号を失敗させる要因を分析し、その上で、グローバルポテンシャル関数に基づく時間差報酬(Temporal Difference Reward, TRD)と、行動の限界効用を直接測定する行動勾配報酬(Action Gradient Reward, ARG)の二つの要素を組み合わせています。HDRは、協調運転問題を部分観測マルコフゲーム(POMDPG)として定義し、オンライン計画(MCTS)や強化学習アルゴリズム(QMIX, MAPPO, MADDPG)を用いて実証実験を行い、高い収束速度と政策の安定性を示しました。最終的に、HDRは交通効率と安全性を効果的にバランスさせる高品質な協調政策の学習を促進します。