バンディット環境下での行動データに対する強化学習モデルの適合

本研究では、マルチアームバンディット環境において、与えられた行動データに強化学習（RL）モデルを適合させる問題を考察しています。近年、これらのモデルは人間や動物の意思決定行動を特性付けるために注目されています。本稿では、科学研究の応用で頻繁に見られる様々なRLモデルの適合問題に対する一般的な数学的最適化問題の定式化を行い、その凸性特性について詳細な理論的分析を提供します。理論的結果に基づいて、凸緩和と最適化に基づく新しい解法を提案し、いくつかのシミュレーションされたバンディット環境で評価を行い、文献に見られるいくつかのベンチマーク手法と比較しました。数値結果は、我々の手法が最先端の性能と同等でありながら、計算時間を大幅に短縮できることを示しています。また、提案した手法を直接研究者がデータセットの分析に適用できるようにするオープンソースのPythonパッケージも提供しています。