批評後編集強化学習による信頼性の高い制御可能なパーソナライズに向けて

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

大規模言語モデル（LLM）の信頼性の高いパーソナライズは個々のユーザーの好みに合わせる上で重要ですが、困難な課題です。従来の方法である教師ありファインチューニング（SFT）はすぐに性能の限界に達し、人間のフィードバックによる強化学習（RLHF）もパーソナライズの微妙な意味合いに苦しんでいます。本研究では、批評後編集（Critique-Post-Edit）という新たな強化学習フレームワークを提案し、より信頼性が高く制御可能なパーソナライズを実現します。このフレームワークは、パーソナライズされた生成報酬モデル（GRM）と、モデルが自身の出力を批評に基づいて修正するメカニズムから成り立っています。この方法は、個別化ベンチマークにおいて標準的なPPOを大幅に上回り、パーソナライズされたQwen2.5モデルがGPT-4.1の性能を超える結果を示しています。