arXiv cs.AI

検索ベースの学習のための適応可能な後見経験再生

Adaptable Hindsight Experience Replay for Search-Based Learning

http://arxiv.org/abs/2511.03405v1


本論文では、AlphaZeroに基づくモンテカルロ木探索システムにコンセプトを適用し、探索と利用のバランスを動的に保ちながら、従来の検索問題に適用可能な新たな手法を提案しています。後見経験再生(HER)は、従来の方法の制約を克服するために、検索木からの不成功の軌跡を教師あり学習信号として再ラベル付けするアプローチです。この研究では、HERをAlphaZeroと統合した適応可能なHERを導入しています。これにより、HERの特性を柔軟に調整できることが試験され、例えば再ラベルされた目標や方針ターゲット、軌跡の選択が含まれます。実験結果からは、HERの柔軟な調整が効果的であり、単なる教師あり学習や強化学習の性能を上回ることが示されています。