この記事では、小型の言語モデル(LLM)がどのようにプロセス報酬と結果報酬を組み合わせて効果的な報酬モデルとなるかについて議論しています。特に、デコーダーのみのトランスフォーマモデルを回帰層を追加し、教師ありファインチューニングを行うことで報酬モデルに変換する方法を提案します。著者たちは、APPSコーディングチャレンジのベンチマークから得たコードサンプルのデータセットを使用し、小型モデルの成功確率を評価する価値ヘッドモデルを訓練しました。評価の結果、小型LLMが正しい解答を効果的に識別できることが示され、最も正確なコードを生成する際の探索能力が20%以上改善されました。この研究は、NeurIPS 2025ワークショップで発表される予定です。