ボロノイ状態分割による局所専門線形ポリシーへの蒸留による説明可能な強化学習ポリシー

Explainable RL Policies by Distilling to Locally-Specialized Linear Policies with Voronoi State Partitioning

本論文では、ディープ強化学習（RL）による透明性の欠如という課題を克服するための新たな手法を提案します。具体的には、ボロノイ分割を用いて状態空間を複数の領域に分割し、各領域で線形モデルが元のコントローラーと同等の性能を発揮できるようにします。このアプローチでは、蒸留された局所専門の線形ポリシーが説明可能であり、元のブラックボックスポリシーと比べて同等またはそれ以上の性能を示すことが評価されています。提案手法は、グリッドワールド環境や伝統的な制御タスクでその効果を検証しており、深層学習モデルの特性を引き出しつつ、人間に理解しやすいモデルへの変換を実現することを目指しています。