基盤的自動評価器：推論中心ドメインのためのマルチタスク生成評価器トレーニングのスケーリング

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

本研究は、特化型生成評価器の微調整を通じて、トレーニングおよびテスト時における評価のスケーラビリティに対応する新たなアプローチを提案しています。特に、2.5百万サンプルからなるデータセットを作成し、推論評価に焦点を当てた5つの独立した評価タスク（ペアウイズ、ステップレベル、参照フリーおよび参照ベースの検証、シングル評価）をカバーしました。このデータを利用して、FARE（Foundational Automatic Reasoning Evaluators）という8Bおよび20Bパラメーターを持つ評価器のファミリーをトレーニングしました。FAREは従来のRL訓練評価器を上回り、オープンソース評価器の新基準を設定しました。更に、実世界でのタスク評価においても優れた結果を示し、特にFARE-20BはMATHタスクでの性能が顕著で、下流のRLモデル性能を14.1%向上させるなどの成果を上げています。