この記事では、自律型水中車両(AUV)を用いた水中汚染雲の検出において、強化学習(RL)が如何に役立つかを探求しています。強化学習のアルゴリズムは、報酬を最大化する行動を学ぶことで問題解決を最適化しますが、ランダムで非定常な環境では特に困難です。多くのRLアルゴリズムは、報酬が稀薄な環境でうまく機能しないことがあります。本稿では、伝統的なRLアプローチを改良し、希薄でランダム、非定常な環境で効率的に運用する方法を提案しています。階層的アルゴリズムの変更、多目的学習、外部出力フィルターとしての位置メモリの統合など、多数の修正を体系的に研究し、結果として修正されたモンテカルロベースのアプローチが従来のQ学習や他の探索パターンと比較して大幅に優れた性能を示すことを明らかにしました。これにより、強化学習のアプローチが複雑な環境に適応可能であることが示唆されています。