Critique-RL: 2段階強化学習による言語モデルの批評訓練

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

本記事では、言語モデルが生成した出力を評価しフィードバックを提供するための批評言語モデルの訓練手法であるCritique-RLを提案しています。従来の手法では強い監視者が必要であったのに対し、Critique-RLはオンラインの強化学習 (RL) アプローチを用いて、二人プレイヤーのパラダイムで動作します。最初にアクターが応答を生成し、批評者がフィードバックを提供しますが、単にアクターの出力に依存した報酬信号では情に満ちた批評者が育成されません。この課題を解決するために、Critique-RLは2段階の最適化戦略を採用します。第1段階ではルールベースの直接報酬を通じて批評者の識別能力を強化し、第2段階ではアクターの改良に基づく間接報酬を導入しつつ、識別能力を維持します。この手法はさまざまなタスクにおいて顕著なパフォーマンス向上を示し、特にQwen2.5-7Bモデルでは、ドメイン内で9.02%、ドメイン外で5.70%の改善が得られました。