本記事では、推薦システムにおいて大規模言語モデル(LLM)を評価する必要性が増していることを背景に、36種類のLLMを比較するためのシステム的なベンチマークスタディ「ScalingEval」を紹介しています。このフレームワークは、スケーラブルな多数決を使用して、パターン監査と問題コードを真実のラベルに集約します。主な発見として、Anthropic Claude 3.5 Sonnetが最も高い判断信頼度を示し、Gemini 1.5 Proが全体的なパフォーマンスで最も優れていること、またGPT-4oがレイテンシーと精度のコストのバランスが最も良好であると報告しています。さらに、オープンソースモデルではGPT-OSS 20Bがリーダーとして際立っています。分析は、構造化されたドメイン(エレクトロニクスやスポーツ)では一致した意見が見られる一方で、ライフスタイルカテゴリ(衣料品や食品)では意見の不一致が続くことを示しています。