選好の危険性: GRPOが順序報酬で失敗する理由

グループ相対ポリシー最適化（GRPO）は、そのシンプルさからLLMを特定のタスクの専門家に適応させるために非常に望ましいものとされていますが、そのシンプルさがRL訓練における豊富な非二元的フィードバックを取り入れる際に不適切さを生じさせます。特に順序報酬を用いた場合、GRPOの基準が失敗した軌道に対してもポジティブな利点を与え、不適切な行動を強化してしまいます。本論文では、この問題を解決する新しいアプローチである「正確さ相対ポリシー最適化（CoRPO）」を紹介します。CoRPOは、最低品質の基準を強化する適応型の基準を使用し、失敗した解答が決してポジティブに強化されないことを保証します。この基準が達成されると、モデルは最適な解答を見つけることを促進されます。実験では、コード検証タスクにおいてCoRPOがより安定した収束と優れた外部ドメイン一般化を示すことを確認しました。この研究は、LLMが強化学習を通じて本当に新しい能力を学ぶための重要なステップを示しています。