HackerNews

13万ノードのKubernetesクラスターの構築

Building the largest known Kubernetes cluster, with 130k nodes

https://cloud.google.com/blog/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/


Google Cloudは、Kubernetes Engine(GKE)のスケーラビリティを向上させるために、13万ノードのクラスターを実験的に運用しました。これは、公式にサポートされているノード数の2倍にあたり、AIなどの要求の厳しいワークロードに対応するための取り組みです。この取り組みでは、Podの生成やスケジューリングのスループットを向上させ、1秒あたり1,000のPodを維持し、100万以上のオブジェクトを分散ストレージに保存することが可能となりました。顧客のAIワークロードがこのような巨大クラスターの需要を推進しており、実際に20-65Kノードのクラスターを運用している顧客が多くいます。今後は、100Kノード近くの需要が安定する見込みです。さらなるスケーラビリティを実現するためには、コントロールプレーンやカスタムスケジューリング、ストレージなどの分野での革新が必要です。また、GKEの基盤を強化することで、通常のクラスターの耐障害性やパフォーマンスも向上させています。