動的環境における経路計画は、インテリジェントな輸送やロボティクスにおける基本的な課題であり、障害物や条件が時間とともに変化するため、不確実性が生じ、継続的な適応が求められる。本稿では、動的環境での経路計画のためのスケーラブルかつ地域認識型の強化学習(RL)フレームワークを提案する。環境の変化はローカライズされることが多いため、階層的に環境を分解し、変化に適応する分散型RLエージェントを展開することに焦点を当てている。また、サブ環境の成功率に基づく再訓練メカニズムを提案し、ポリシーの更新が必要なタイミングを特定する。シングルエージェントQ学習とマルチエージェント連合Q学習の二つの訓練パラダイムを検討し、結果として、連合型アプローチがシングルエージェントと比較して一貫して優れた性能を示し、短い適応時間と堅牢なスケーラビリティを維持することが明らかになった。本研究は、深層RLや柔軟な環境分解を利用した今後の改善の基盤を築くものである。