AUPO -- 証明がなされるまで抽象化された：報酬分配に基づく抽象化アルゴリズム

AUPO -- Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm

本稿では、モンテカルロ木探索（MCTS）の意思決定ポリシーに対する新しい改良手法「AUPO」を紹介します。この手法は、さまざまなIPPCベンチマーク問題に基づく比較において、MCTSを大きく上回る成績を示しています。AUPOは、MCTSの過程で得られる報酬分配に基づいた自動的なアクションの抽象化アルゴリズムであり、遷移確率や有向非巡回グラフを必要としません。これにより、従来のフレームワークが苦手とする対称アクションの検出が可能となり、特に状態空間での対称状態が遠く離れた場合にも有効です。さらに、AUPOは意思決定ポリシーのみに影響を与えるため、他の探索手法との併用が可能です。