繰り返し最適停止のためのオンラインアルゴリズム：競争比と後悔境界の両方を達成する

Online Algorithms for Repeated Optimal Stopping: Achieving Both Competitive Ratio and Regret Bounds

本研究では、繰り返し最適停止問題を扱い、既知の分布を持たない古典的な最適停止問題を一般化しています。この設定では、同じ問題をTラウンド繰り返し解く中で、各ラウンドで競争比を保証しつつ、全体でサブリニアの後悔を達成するアルゴリズムの設計を目指します。主な貢献は、これらの目標を同時に達成するための一般的なアルゴリズムフレームワークの構築です。具体的には、歴史的な観察から導出された経験的最適アルゴリズムと、競争比保証のあるサンプルベースのアルゴリズムの2つの候補からダイナミックにアルゴリズムを選択します。このアプローチに基づき、基準となるサンプルベースのアルゴリズムと同等以上の性能を確保しつつ、全体の後悔を$ ilde{O}( oot{T})$で制約するアルゴリズムを設計しました。このフレームワークは、預言者不等式や秘書問題などの典型的な問題に適用でき、特に繰り返し性に対する性能を向上させています。