この記事は、現代のファンデーションモデルにおける推論能力の包括的なクロスプラットフォーム評価を提示しています。HPCスパコン(MareNostrum 5)、クラウドプラットフォーム(Nebius AI Studio)、および大学のクラスター(H200 GPUを持つノード)という三つのコンピュータパラダイムを跨いだインフラストラクチャ無依存のベンチマークを確立しました。15種のファンデーションモデルを79の問題にわたり評価し、物理学、数学、化学、経済学、生物学、統計学、微積分、および最適化の8つの学術分野にわたります。三段階の実験を通じて、モデル選択に役立つ行動可能なガイドラインを提供し、データの質がモデルサイズよりも重要であることを裏付け、推論能力の長期的な追跡を可能にします。