HackerNews

DNS以上:14時間にわたるAWSの障害からの教訓

More than DNS: Learnings from the 14 hour AWS outage

https://thundergolfer.com/blog/aws-us-east-1-outage-oct20


2025年10月26日、AWSのus-east-1リージョンは過去10年間で最悪の障害を経験し、14時間以上にわたって140のAWSサービスに影響を及ぼしました。特に、EC2が重要な役割を果たしており、これにより大幅な収益減少が予想されています。障害の根本的な原因はDynamoDBのDNS管理システムにおけるレースコンディションであり、正しくないDNSレコードが生成されてしまったことに起因します。DynamoDBはAWS内で広く利用されている基盤サービスであり、その障害が他のサービスへの影響を引き起こしました。この教訓から、特にクラウドにおけるソフトウェアの信頼性を理解することの重要性が浮き彫りになっています。AWSは、障害の詳細を発表し、その背後にある複雑な要因を理解するための手助けをするドキュメントを公開しました。