この記事では、レコメンダーシステムにおける自律的な推論能力を強化する新しい手法、RecZeroが提案されています。従来のモデルでは、複数のモデルと段階での知識蒸留に依存していましたが、RecZeroは強化学習(RL)を基に、単一の大規模言語モデル(LLM)を用いて自律的に推論能力を開発します。この手法の主要な要素は、ユーザーの興味や商品特性を段階的に分析するための構造化された推論テンプレート(「Think-before-Recommendation」プロンプト)と、推論軌跡に対する報酬を計算するルールベースの報酬モデリングです。加えて、従来のモデルと比較して大幅なパフォーマンス向上を示し、推論を強化したレコメンダーシステムの有効性を示しています。更に、RecOneという新たなハイブリッドパラダイムも提案され、これにより初期の推論サンプルでモデルを初期化し、その後の強化学習で最適化が行われます。