棄権を伴うポリシー学習

本研究は、ポリシー学習の新しい手法である「棄権」を取り扱っています。従来のポリシー学習アルゴリズムは、不確実な予測がある場合でも決定を強いるため、高リスクの環境では危険です。本論文では、ポリシーが安全なデフォルトや専門家に棄権することができる方法を提案し、棄権することにより、ランダム推測の価値に小さな報酬を追加で受け取ります。著者らは、まず近くの最適ポリシーのセットを特定し、その後、意見の不一致から棄権ルールを構築する二段階の学習者を提案しています。既知の傾向に対してはO(1/n)型の早い後悔保証を確立し、未知の傾向に対しては二重ロバスト（DR）目的を通じてこの保証を拡張します。また、棄権はマージン条件下での保証改善や小さなデータシフトへのヘッジ、基準ポリシーに対する高確率での改善を保証するなど、ポリシー学習の他の核心問題への直接的な応用が可能であることも示しています。