学ばない方を学ぶ: 無制限報酬を持つバンディットにおけるリスク感応的回避

Learning When Not to Learn: Risk-Sensitive Abstention in Bandits with Unbounded Rewards

本論文では、AIの高リスクなアプリケーションにおいて、一つの行動が取り返しのつかない損害を引き起こす可能性があることに着目しています。通常のバンディットアルゴリズムは、すべてのエラーが回復可能であると仮定しているため、この仮定が崩れると損害をもたらす恐れがあります。本研究は、メンターなしでの無制限報酬による学習モデルを定義し、代理人が行動を選ぶ際に回避オプションを持つ二つのアクションを利用するアプローチを提案します。具体的には、証拠が損害を保証しないところでのみ行動を起こす新たなアルゴリズムを開発し、理論的に慎重な探索が高リスク環境での学習エージェントの安全な展開を可能にすることを示しています。この方法は、非線形の後悔保証を確立し、厳しい状況での意思決定を支援します。