本記事では、機械学習におけるモデル性能評価の新たな手法「SAFE(Stratified Assessments of Forecasts over Earth)」を紹介します。従来の手法では、全サンプルの平均損失を元に性能を評価しますが、これは地理的な人間の発展や環境の不均一な分布を考慮していません。SAFEは、地球上の異なる属性(国や地域、所得、土地利用など)に基づいて予測の性能を層別化し、それぞれの属性におけるモデルの正確さを評価します。また、最先端のAI気象予測モデルをベンチマークした結果、これらのモデルが層別属性ごとに予測技能に著しい違いを示すことを発見しました。この手法により、モデルの予測の公平性や性能の最良地点、最悪地点を特定することが可能になります。SAFEはオープンソースとして利用可能です。