ファンデーションモデルにおける推論能力のクロスプラットフォーム評価

この記事は、現代のファンデーションモデルにおける推論能力の包括的なクロスプラットフォーム評価を提示しています。HPCスパコン（MareNostrum 5）、クラウドプラットフォーム（Nebius AI Studio）、および大学のクラスター（H200 GPUを持つノード）という三つのコンピュータパラダイムを跨いだインフラストラクチャ無依存のベンチマークを確立しました。15種のファンデーションモデルを79の問題にわたり評価し、物理学、数学、化学、経済学、生物学、統計学、微積分、および最適化の8つの学術分野にわたります。三段階の実験を通じて、モデル選択に役立つ行動可能なガイドラインを提供し、データの質がモデルサイズよりも重要であることを裏付け、推論能力の長期的な追跡を可能にします。