大規模推論モデルは翻訳評価者として優れているか？分析と性能向上

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

本研究では、大規模推論モデル（LRMs）が機械翻訳（MT）の評価者としての有効性に焦点を当て、初めての体系的な分析を行っています。LRMsは、生成する最終回答の前に「思考」プロセスを導入することで、複雑な下流タスクに対する推論能力が向上しましたが、MT評価におけるLRMsの潜在能力は十分に探求されていません。研究では、LRMsは評価用の特別な素材を必要とし、簡単な事例を「考えすぎる」傾向があり、スコアリングメカニズムに問題があるため、評価を誇張することが明らかになりました。これに対処するため、合成された人間のような思考過程でLRMsの思考を調整する手法を提案し、実験結果により35倍のコスト削減と、様々なLRMの規模における評価性能の向上を実証しました。これにより、微細な自動MT評価の発展に向けたLRMsの調整の可能性が示されました。