AIシステム評価の弱点を特定した研究

オックスフォード大学のインターネット研究所(OII)が主導した新しい研究によると、多くの大規模言語モデル(LLM)を評価するためのテストが科学的厳密性に欠けていることが判明しました。研究者たちは445のAIベンチマークをレビューした結果、多くが曖昧な定義や弱い分析手法に基づいており、AIの進歩や能力、安全性について信頼できる結論を引き出すことが難しいと指摘しています。ベンチマークはAIシステムの設計、運用、規制の中心的な役割を果たしており、EUのAI法などの政策枠組みにも参照されています。研究者たちは、定量的な厳密性や明確な定義が欠如しているため、開発者や規制者がAIシステムの能力や安全性を誤解する可能性があると警告しています。著者たちは、心理測定技術などの既存の方法論を取り入れ、ベンチマークの有効性を改善するための具体的な提案を行っています。