HackerNews

モデルチェッカーを使用したAWS障害の競合状態の再現

Reproducing the AWS Outage Race Condition with a Model Checker

https://wyounas.github.io/aws/concurrency/2025/10/30/reproducing-the-aws-outage-race-condition-with-model-checker/


この記事では、AWSの障害のポストモーテムから得られた情報を基に、競合状態をモデルチェックを通じて再現する試みについて述べています。AWSは複雑なシステムであり、障害が発生することもありますが、信頼性が高いことが強調されています。競合状態はDynamoDBの自動DNS管理システムの欠陥に起因しており、DNSプランナーとDNS実行者の連携が重要です。実験では、Spinモデルチェッカーを使用し、プロセスの interleaving を探ることで、どのように競合状態が発生するかをモデル化していきます。このモデルでは、プランを生成し処理するDNSプランナーと、プランを適用してクリーンアップを行う複数のDNS実行者が並行して動作します。最終的に、システム状態を追跡しつつ、競合状態の原因を明らかにすることを目指します。