GEO-Bench-2は、地理空間基盤モデル(GeoFMs)の評価に関する標準化プロトコルが不足している現状に対処するための包括的なフレームワークを提供します。この記事では、分類、セグメンテーション、回帰、物体検出、インスタンスセグメンテーションにわたる19のデータセットを用いて、モデルの「能力」グループを導入し、共通の特性を持つデータセットでモデルをランク付けします。このアプローチにより、ユーザーは各能力において優れたモデルを特定し、今後の改善点を明確にします。また、公平な比較と方法論的革新を支援する柔軟な評価プロトコルを定義し、GeoFMsの適応戦略の研究を促進します。実験結果は、全てのタスクで優れた性能を持つ単一のモデルは存在しないことを示しており、作成時の特定の選択が影響していることを確認しています。最終的には、特定の使用事例に合わせたGeoFM評価を可能にし、今後の研究課題を浮き彫りにしています。