自律型水中車両によるランダム化された希薄で非定常な環境における汚染検出のための強化学習

Reinforcement Learning for Pollution Detection in a Randomized, Sparse and Nonstationary Environment with an Autonomous Underwater Vehicle

この記事では、自律型水中車両（AUV）を用いた水中汚染雲の検出において、強化学習（RL）が如何に役立つかを探求しています。強化学習のアルゴリズムは、報酬を最大化する行動を学ぶことで問題解決を最適化しますが、ランダムで非定常な環境では特に困難です。多くのRLアルゴリズムは、報酬が稀薄な環境でうまく機能しないことがあります。本稿では、伝統的なRLアプローチを改良し、希薄でランダム、非定常な環境で効率的に運用する方法を提案しています。階層的アルゴリズムの変更、多目的学習、外部出力フィルターとしての位置メモリの統合など、多数の修正を体系的に研究し、結果として修正されたモンテカルロベースのアプローチが従来のQ学習や他の探索パターンと比較して大幅に優れた性能を示すことを明らかにしました。これにより、強化学習のアプローチが複雑な環境に適応可能であることが示唆されています。