安全で効率的かつ頑健な強化学習を用いたランキングおよび拡散モデル

Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models

この記事では、強化学習（RL）手法の安全性、サンプル効率、堅牢性を向上させるための設計について探求しています。特に、コンテキストバンディットRLの視点から、ランキングおよび推薦、テキストから画像への拡散モデルの2つの主要な応用分野に焦点を当てています。初めに、ランキングシステムにおける安全な運用のための理論とアルゴリズムが開発され、露出に基づく一般化境界が導出されます。これにより、反事実リスク最小化目的が確立され、スパースフィードバックでもロギングポリシーを下回らないという保証が得られます。次に、シングルアクションバンディットについて、複数のオフポリシー推定器がベースライン補正フレームワーク内で統一され、評価およびポリシー勾配の分散を最小化するための最適ベースラインが提案されます。最後に、生成RLにおける効率性と効果のトレードオフが検討され、LOOPアルゴリズムが提案され、サンプル効率が向上し、生成物がテキスト属性に忠実に一致することが示されています。