arXiv cs.LG

文脈バンディットにおける特徴の摂動による探査

Exploration via Feature Perturbation in Contextual Bandits

http://arxiv.org/abs/2510.17390v1


本稿では、特徴摂動と呼ばれる手法を提案します。この手法は、報酬にノイズを加えたり未知のパラメータをランダム化するのではなく、特徴入力に直接ランダム性を追加するシンプルでありながら強力な技術です。このアルゴリズムは、一般化線形バンディットに対して最悪の場合の後悔境界を$ ilde{ ext{O}}(d ext{sqrt}{T})$でもたらし、既存のランダム化バンディットアルゴリズムの典型的な後悔境界$ ilde{ ext{O}}(d^{3/2} ext{sqrt}{T})$を回避します。パラメータサンプリングを省くことで、計算効率が高く、非パラメトリックまたはニューラルネットワークモデルへの自然な拡張が可能です。実証評価を通じて、この特徴摂動が既存の方法を凌駕し、強力な実用性能と既知の理論的保証を統一していることを確認しました。この研究は、NeurIPS 2025においてスポットライトで受理されました。