Coinbaseは、2026年5月7日に発生した約8時間続いた大規模なサービス停止についての事後報告書を公開しました。完全な復旧には約12時間を要しました。この停止は、AWSのus-east-1リージョンのAvailability Zone use1-az4にある複数の冷却ユニットの故障により、サーバーラックの熱シャットダウンが発生したことが原因です。その結果、EC2インスタンスとEBSボリュームがオフラインとなり、Coinbaseの取引、入金、出金、コアサービスに深刻な影響を及ぼしました。 このインシデントは、特に取引マッチングエンジンが単一のAWSデータセンターに依存していたことによるCoinbaseのインフラの脆弱性を浮き彫りにしました。このエンジンは停止中にクォーラムを失いました。さらに、AWS管理のKafka(MSK)もコントロールプレーンの障害を経験し、さまざまなシステムに混乱をもたらしました。Coinbaseは、クロスリージョンのアーキテクチャを強化し、災害復旧プロトコルを改善し、これらの問題に対処し将来の発生を防ぐためにAWSと協力する計画です。