arXiv cs.LG

GRPO-RM: GRPO駆動の強化学習による表現モデルのファインチューニング

GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning

http://arxiv.org/abs/2511.15256v1


本研究では、GRPO(Group Relative Policy Optimization)を利用した表現モデルのファインチューニング手法GRPO-RMを提案し、ポストトレーニング表現モデルにおけるGRPO様ポリシーの性能を検討します。GRPOは、特に大規模言語モデル(LLMs)のチューニングに効果的で、実務でも成果を上げています。本手法では、トークンシーケンスサンプリングの代わりに機能的に出力セットを事前定義し、それに基づいて確率駆動の最適化を行う出力グループを生成します。また、表現モデルの特性に合わせた報酬関数も設計され、実際のデータセットで広範な実験を実施し、提案手法の有効性を検証しています。