AIベンチマークは、技術や知的優位性を示すための指標としてAI企業によって盛んに引用されますが、その結果は意味を成さない可能性があるとする研究が発表されました。オックスフォード大学インターネット研究所や他の機関の研究によると、445の自然言語処理および機械学習用のベンチマークのうち、厳密な科学的方法が用いられているのはわずか16%に過ぎないとされています。また、約半数のベンチマークは、推論や無害性といった抽象的な概念を測定することを主張しながら、それらの明確な定義や測定方法を提供していません。研究者たちは、AIの進歩についての決定的な主張があるべきであり、共通の定義と健全な測定方法が欠かせないと警鐘を鳴らしています。改善を求める提言として、測定対象の定義、汚染への配慮、モデル間の比較に統計的方法を用いることなど、8つの推奨事項が示されています。これにより、AIベンチマークの信頼性を高めることが期待されています。