改善された多腕バンディット問題のためのアルゴリズム設計と強力な保証

Algorithm Design and Stronger Guarantees for the Improving Multi-Armed Bandits Problem

この記事では、改善された多腕バンディット問題について取り扱われています。この問題は、不確実性の中で努力を配分するための形式的モデルであり、新技術への研究投資や臨床試験、ハイパーパラメータ選択といったシナリオから動機付けられています。各アームの引き出しは報酬を提供しますが、その報酬は単調に増加し、収穫逓減の特性を持つことが特徴です。本研究では、新たに2つのパラメータ化されたバンディットアルゴリズムのファミリーを提案し、これらのファミリーから近似最適なアルゴリズムを学習する際のサンプル複雑性を制限します。最初のファミリーは以前の研究からの最適なランダム化アルゴリズムを含み、適切に選ばれたアルゴリズムは、アーム報酬曲線が追加の特性を満たす場合において、より強力な保証を提供します。2つ目のファミリーは、良好なインスタンスでの最適アーム識別を保証しながら、悪化したインスタンスに対しては最悪の場合の保証に戻るアルゴリズムを含んでいます。統計的学習の観点から、データ依存の保証を強化し、前提条件の検証なしに最適化を実現しています。