Scales++: 認知スケール埋め込みを用いた効率的な評価サブセット選択の計算

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

大規模言語モデル（LLMs）の評価には高いコストがかかるため、効率的な評価を行うための小さく代表的なデータサブセット（ミニベンチマーク）が必要です。本研究では、既存のモデルのパフォーマンスに基づく従来のモデル中心アプローチの限界を指摘し、タスクアイテムそのものの内在的特性に基づくアイテム中心のアプローチを提案します。この方法により、Scales++という新しい手法を用いて、ベンチマークサンプルの認知的要求に基づくデータ選択を行います。実験結果によれば、Scales++は選択コストを18倍以上削減し、競争力のある予測精度を達成しました。Open LLMリーダーボードにおいては、0.5%のデータサブセットで完全なベンチマークスコアを予測し、平均絶対誤差は2.9%でした。このアイテム中心アプローチは、モデル評価の効率を向上させるだけでなく、より良いコールドスタート性能と解釈性のあるベンチマークを提供します。