arXiv cs.AI

既知の価値差によるノードのグループ化: ロスレスUCTベースの抽象化アルゴリズム

Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm

http://arxiv.org/abs/2510.25388v1


本論文では、モンテカルロ木探索(MCTS)のサンプル効率を向上させるために、状態-アクションペアをグループ化し、単一ノードの統計ではなくその集約統計を使用することの重要性について述べています。従来のOGA-UCTアルゴリズムは、同一価値の状態-アクションペアを必要とするASAPフレームワークを用いていましたが、本研究では異なる価値を持つ状態-アクションペアでもグループ化可能であることを提唱しました。これにより、価値の違いを推測し、OGA-UCTを修正したKVDA-UCTが、従来手法に比べて異なる抽象化を多数検出できることを示しました。KVDA-UCTはパラメータを追加せず、さまざまな決定論的環境においてOGA-UCTを上回る性能を発揮します。