本記事では、干渉を考慮した先見性のあるオンラインポリシー最適化手法(FRONT)について論じています。従来の文脈バンディット手法は、個人の行動が自己の報酬にのみ影響を与えると仮定し、短期的な報酬の最大化に焦点を当てがちです。このアプローチは、実際の状況では干渉が存在するため、最適でない決定や後悔の増加を引き起こします。FRONTは、現在の決定が後続の決定や報酬に与える長期的な影響を考慮することでこの問題に対処し、探査と活用の戦略を組み合わせることによって複雑な干渉を管理します。理論的には、オンライン推定器の尾部境界を確立し、適切な条件下でのパラメータの漸近分布を導出します。実際のシミュレーションや都市ホテルの利益向上への応用を通じて、FRONTの有効性が示されています。