非正確抽象アルゴリズムのための内部抽象ポリシーの調査

本論文では、モンテカルロ木探索（MCTS）のサンプル効率の弱点に対処するため、状態や行動の抽象化を活用し、同じ層のノード間で情報を共有する方法を提案しています。MCTSの抽象化の主な用途は、木のポリシーにおいて上限信頼境界（UCB）値を強化することですが、同じ親を持つ複数の行動が同じ抽象ノードに存在する場合、すべてが同じUCB値になることが問題です。既存のアルゴリズムでは、ランダムなタイブレイクルールが採用されていますが、本研究ではいくつかの代替的な内部抽象ポリシーを提案し、これらの一部が多くの環境やパラメータ設定においてランダムポリシーよりも優れていることを実証的に評価しています。