相関報酬モデルの学習：統計的障壁と機会

本記事では、ユーザーの好みをモデル化するための古典的な枠組みであるランダム効用モデル（RUMs）が、強化学習における報酬モデルで重要な役割を果たすと述べています。従来の手法が依存性のない同等なる選択肢の仮定（IIA）に依存していることが問題であり、人間の好みの範囲を粗い近似に留めることが指摘されています。本論文では、相関プロビットモデルというRUMを学習する際の統計的および計算的課題を探求し、ペアワイズの好みデータの収集が相関情報を学習するには不十分であることを示しました。その後、3つの選択肢からの最良の好みデータがこの問題を克服することを証明し、効率的な推定器を開発しました。以上の結果を実世界のデータセットで検証し、より細かな人間の好みのモデル化が可能であることを示しました。