完全AMDプラットフォーム上での基盤モデルの訓練：コンピューティング、ネットワーキング、システム設計

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

本研究は、AMDハードウェアを用いた初の大規模混合専門家（MoE）事前学習の調査を報告しています。MI300X GPUとPollaraインターコネクトを利用しており、システム側では、あらゆるメッセージサイズやGPU数におけるコアコレクティブのマイクロベンチマークを通じて、包括的なクラスターとネットワーキングの特性を提供しています。また、モデル設計に関する実用的なガイダンスと、MI300Xを意識したトランスフォーマサイズルールを適用し、訓練スループットと推論遅延を最適化するMoEの幅を正当化しています。ZAYA1という基盤モデルは、Qwen3-4BやGemma3-12Bなどの先進的なモデルに匹敵するパフォーマンスを示しており、AMDのハードウェアおよびソフトウェアスタックの高さが競争力のある大規模事前訓練を実現できることを示しています。