GRPO-RM: GRPO駆動の強化学習による表現モデルのファインチューニング

GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning

本研究では、GRPO（Group Relative Policy Optimization）を利用した表現モデルのファインチューニング手法GRPO-RMを提案し、ポストトレーニング表現モデルにおけるGRPO様ポリシーの性能を検討します。GRPOは、特に大規模言語モデル（LLMs）のチューニングに効果的で、実務でも成果を上げています。本手法では、トークンシーケンスサンプリングの代わりに機能的に出力セットを事前定義し、それに基づいて確率駆動の最適化を行う出力グループを生成します。また、表現モデルの特性に合わせた報酬関数も設計され、実際のデータセットで広範な実験を実施し、提案手法の有効性を検証しています。