オックスフォードインターネット研究所の新たな研究によると、多くのAI性能試験に用いられるベンチマークツールは信頼性が低く、誤解を招く可能性があるとされています。この研究では、業界や学術機関が使用する445種類のベンチマークテストが分析され、目的の測定において妥当性に欠けることが示唆されました。特に、特定のスキルを測るとされるベンチマークが、それを正確に捉えられないケースが多いと指摘されています。例えば、数学能力を測るGrade School Math 8Kテストは、実際にはモデルの推論能力を示していないかもしれないと研究者たちは述べています。テストの質問がモデルのデータセットに含まれることで記憶が強化され、実際の推論がされていない可能性も指摘されており、ベンチマークが常に正確な指標であるとは限らないという警鐘が鳴らされています。この研究は、AIの性能測定がマーケティングツールとして利用される危険性を示すものとなっています。