Компания Cloudflare раскрыла детали масштабного сбоя, который произошёл 18 ноября и затронул работу множества онлайн-сервисов — среди них ChatGPT, X (Twitter) и Downdetector.
В компании называют этот инцидент самым серьёзным с 2019 года.
По данным Cloudflare, проблема возникла из-за некорректной конфигурации запроса в базе данных ClickHouse, используемой для генерации настроек системы Bot Management, основанной на машинном обучении.
Из-за сбоя запрос начал формировать большое количество дублирующихся данных. Конфигурационный файл стремительно увеличился и превысил лимиты памяти, что привело к отказу ключевой прокси-системы, отвечающей за трафик, фильтруемый модулем ботов.
В результате у некоторых клиентов реальный трафик начал блокироваться, тогда как пользователи, не задействовавшие модуль, продолжали работать без перебоев.
Cloudflare подчеркнула, что случившееся не связано с DNS-системой, кибератаками или внедрением генеративного ИИ — речь идёт о внутренней ошибке логики обновления конфигураций.
Чтобы избежать подобных инцидентов в будущем, компания анонсировала ряд мер:
усиление контроля обработки конфигураций,
расширение возможностей аварийного отключения функций,
предотвращение перегрузки системы отчётами об ошибках,
пересмотр режимов отказоустойчивости в критически важных модулях.
Cloudflare напоминает, что около 20% мирового интернет-трафика проходит через её сеть, поэтому какой-либо сбой в центральных элементах способен вызвать глобальные последствия.
Напомним, масштабный сбой в работе Cloudflare: без доступа остались популярные сайты по всему миру.