AIベンチマークにおける驚くべきバグとその発見場所

AIの進展においてベンチマークは重要な役割を果たしており、無効なベンチマーク質問がその信頼性を損なうことがあります。本研究では、応答パターンの統計分析を活用して、潜在的に無効な質問を専門家によるさらなるレビューのためにフラグ付けする体系的なベンチマーク修正のフレームワークを提案します。本手法は、AI評価において一般的に用いられるコアな仮定、すなわち平均スコアがモデルのパフォーマンスを十分に要約するという前提に基づいています。実証的に推定された統計値が期待範囲を外れる場合、その項目は問題がある可能性が高まります。この方法を用いることで、9つの広く使われているベンチマークにおいて、最大84%の精度で問題のある質問を特定することが可能となります。また、質問をレビューするためのLLM-judgeを導入し、人手の負担をさらに軽減しています。これにより、体系的なベンチマーク修正のための効率的でスケーラブルなフレームワークが提供されます。