この記事では、Fly.ioがDockerコンテナを独自のマイクロVMであるFly Machinesに変換するプラットフォームの運用と、その中で発生する問題について詳述されています。特に、顧客のCI/CDパイプラインの変化に迅速に対応するための状態同期システムの重要性が強調されています。しかし、2024年9月1日に発生した大規模な障害では、分散システムの脆弱性が露呈しました。システムのロック管理の失敗が致命的なデッドロックを引き起こし、すべてのエッジプロキシが停止する事態に。この記事は、信頼できる分散システムの構築過程と、その中で直面する試練を紹介し、新たにオープンソース化されたサービス発見システム「Corrosion」の導入についても論じています。Fly.ioは、中央集権型データベースから各サーバーを情報の主権者とするモデルに移行し、グローバルなルーティングデータベースを構築しようとしています。