本論文では、探索と活用のシステムにおける安全制約について論じます。特に、探索を行う個人の福祉と全体の福祉とのバランスが求められる場合に問題が生じます。この研究は、推薦システムにおけるバンディット型の設定からインスパイアされたモデルを採用しており、安全制約を導入します。この制約は各ラウンドで尊重されるべきものであり、各ラウンドの期待値が一定の閾値を上回ることを要求します。安全な探索と活用の方針は慎重に計画されなければならず、そうでない場合には最適でない福祉につながります。本論文では、この設定のための漸近的に最適なアルゴリズムを考案し、そのインスタンス依存の収束率を分析しています。