arXiv cs.AI

動的環境における自律ナビゲーションのためのハイブリッドDQN-TD3強化学習

Hybrid DQN-TD3 Reinforcement Learning for Autonomous Navigation in Dynamic Environments

http://arxiv.org/abs/2510.26646v1


本論文では、高レベルの深層Qネットワーク(DQN)を用いた離散的サブゴール選定と、低レベルの双方向遅延深層決定論的ポリシー勾配(TD3)コントローラーを結合した階層的な経路計画と制御フレームワークを提案しています。高レベルモジュールは動作やサブゴールを選択し、低レベルモジュールはスムーズな速度指令を実行します。報酬設計には、方向、距離、障害物回避、行動の滑らかさ、衝突ペナルティ、時間ペナルティ、進行度が含まれ、LiDARベースの安全ゲートにより安全でない動作を防ぎます。このシステムはROSとGazebo(TurtleBot3)上で実装され、動的かつ部分的に観測可能な環境においてPathBenchの指標(成功率、衝突率、経路効率、再計画効率)で評価されています。実験結果は、単一アルゴリズムのベースライン(DQNまたはTD3単独)やルールベースのプランナーに対して、成功率とサンプル効率が向上し、未見の障害物構成に対する一般化能力や急激な制御変化が軽減されることを示しています。