ブートストラップDQNにおける情報強化探索の価値

深層強化学習における効率的な探索は、高次元の状態や稀な報酬を特徴とする環境での重要な課題です。本論文では、ブートストラップDQNアルゴリズムにおいて、予測される情報の価値（EVOI）の概念を統合することで、深い探索能力を向上させる新しい手法を提案します。具体的には、情報の価値を学習することで得られる期待される利益を取り入れた2つの新しいアルゴリズムを開発し、異なるネットワークヘッド間の意見の不一致を測定します。このアプローチにより、最も潜在能力のある領域への探索を促進します。実験では、複雑で稀な報酬のAtariゲームにおいてパフォーマンスが向上し、ランダムなネットワーク初期化から生じる不確実性をより良く活用し、追加のハイパーパラメータを導入することなく実現されています。