報酬関数最適化による強化学習を用いた拡散ベースのレコメンダーシステムのファインチューニング

Fine-Tuning Diffusion-Based Recommender Systems via Reinforcement Learning with Reward Function Optimization

本論文では、拡散モデルを利用したレコメンダーシステムを強化学習（RL）に基づくファインチューニング手法で最適化する新たなフレームワーク「ReFiT」を提案しています。従来のアプローチは外部報酬モデルに依存していましたが、ReFiTは作業に沿った設計を採用し、ノイズを含まない推薦品質を反映した報酬関数を取り入れています。このアプローチにより、RLエージェントは高次の接続性を利用して精緻な最適化を行い、推薦精度を向上させます。実験結果では、ReFiTが他の競合手法と比較して最大36.3%の性能向上を示し、ユーザーやアイテム数に対する線形の効率を持ち、さまざまなシナリオでの一般化にも優れています。この研究により、拡散ベースのレコメンダーシステムの設計と最適化が新たな段階に進むことが期待されます。