専門家の反復学習における自己対戦学習の経験分布の操作

Manipulating the Distributions of Experience used for Self-Play Learning in Expert Iteration

この記事では、Expert Iteration（ExIt）と呼ばれる自己対戦学習のフレームワークを使い、ゲームプレイポリシーを学習する方法における経験データの分布操作について述べています。ExItは木探索アルゴリズムの動作を模倣するポリシーを訓練し、そのポリシーを使って木探索をガイドすることにより、自己対戦を通じて互いに改善し合います。本論文では、自己対戦から収集したデータの分布を操作するための3つのアプローチを提案します。まず、エピソードの長さに基づいてサンプルを重み付けします。次に、Prioritized Experience Replayを使用して貴重な学習信号を得られる経験を優先サンプリングします。最後に、訓練された探索ポリシーを使って自己対戦での軌跡の多様性を高めます。14種類のボードゲームでの訓練性能を評価した結果、いくつかのゲームでは訓練初期のパフォーマンスが大幅に向上し、全体では小幅な改善が見られました。