arXiv cs.AI

習慣化と回復ダイナミクスを持つ電力制約型非定常バンディット

Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics

http://arxiv.org/abs/2511.02944v1


この記事では、報酬が未知で時間とともに変化するアクションを選択する際の課題について述べられています。特に、反復使用による効果の減少(習慣化)や、使用しないことで効果が復活する(回復)という非定常性に焦点を当てています。この問題に対処するため、著者たちはROGUEフレームワークを用いて、Thompson Samplingアルゴリズム(ROGUE-TS)を開発し、理論的な保証を提供しています。また、個人化と集団レベルの学習をバランスさせるための確率クリッピング手法も提案されています。物理的活動の促進及び双極性障害の治療に関する二つのマイクロランダム化試験データセットを用いた実験により、提案された方法が既存の手法よりも低い後悔値を達成し、統計的有意性を保持することが示されました。このフレームワークは、MRTを設計する研究者に対し、個人化と統計的妥当性のバランスを取る practical guidance を提供します。