HybridEP: ハイブリッド専門家/データ伝送によるクロスデータセンターシナリオへの専門家並列性の拡張

HybridEP: Scaling Expert Parallelism to Cross-Datacenter Scenario via Hybrid Expert/Data Transmission

Mixture-of-Experts (MoE)は大規模モデルのスケーリングに有効なアーキテクチャとして注目されていますが、モデルの拡大は単一データセンターでのトレーニング能力を超えており、クロスデータセンターでのトレーニングが求められています。しかし、既存の専門家並列性（EP）はデータセンター間の帯域幅の制約によりスケーラビリティの問題に直面しています。特に、データ通信と計算を重ねる既存の最適化手法は、低帯域幅環境では効果が薄いです。この課題を解決するために、著者たちはHybridEPというフレームワークを提案します。これは、専門家の配置を動的に変更することでデータ通信を最適化し、通信のオーバーヘッドを最小化します。さらに、帯域幅に応じた最適な通信比を決定するモデルを構築し、効率的な移行手法を導入します。実験結果では、HybridEPが帯域幅制約下で従来の最先端MoEトレーニングシステムを最大5.6倍上回り、大規模シミュレーションでも顕著な速度向上を示しました。