アリババクラウドは、新しいAegaeonプーリングシステムによって、Nvidia GPUの使用量を82%削減できたと発表しました。この結果は、213個のGPUで1,192個のGPUに相当する性能を実現しました。Aegaeonは、GPUの利用効率を最大化するために設計された推論タイムスケジューラーであり、複数のモデルにGPUアクセスを仮想化します。このシステムを適用することで、72ビリオンパラメータの異なる大型言語モデルのサポートに必要なGPUの数が、1,192から213に減少しました。論文は、NvidiaのH20など、限られたアクセラレーターの使用の下で行われたベータテストの結果を示しており、特に中国市場では注目されています。Aegaeonは、複数のモデルを1つのGPUにパッキングすることと、トークン単位での自動スケーリングを使用して、ダイナミックにコンピュートを割り当てる方法で大きな効果を上げました。この技術の成果は、他のハイパースケーラーにも関心を持たれることでしょう。