Coinbase опубликовала отчет о причинах масштабного сбоя в работе сервиса 7 мая 2026 года, который длился примерно 8 часов, а полное восстановление заняло около 12 часов. Сбой был вызван отказом нескольких охладительных установок в зоне доступности use1-az4 региона AWS us-east-1, что привело к тепловым отключениям серверных стоек. В результате экземпляры EC2 и тома EBS вышли из строя, что серьезно повлияло на торговлю, депозиты, снятие средств и основные сервисы Coinbase. Инцидент выявил уязвимости в инфраструктуре Coinbase, особенно в зависимости от одного дата-центра AWS для движка сопоставления торговых заявок, который потерял кворум во время сбоя. Кроме того, управляемый AWS Kafka (MSK) столкнулся с отказом управляющей плоскости, что нарушило работу различных систем. Coinbase планирует улучшить архитектуру с поддержкой нескольких регионов, усовершенствовать протоколы аварийного восстановления и сотрудничать с AWS для решения этих проблем и предотвращения подобных инцидентов в будущем.