Компанія Cloudflare розкрила деталі масштабного збою, який стався 18 листопада і торкнувся роботи багатьох онлайн-сервісів - серед них ChatGPT, X (Twitter) і Downdetector.
У компанії називають цей інцидент найсерйознішим з 2019 року.
За даними Cloudflare, проблема виникла через некоректну конфігурацію запиту в базі даних ClickHouse, яка використовується для генерації налаштувань системи Bot Management, заснованої на машинному навчанні.
Через збій запит почав формувати велику кількість даних, що дублюються. Конфігураційний файл швидко збільшився і перевищив ліміти пам'яті, що призвело до відмови ключової проксі-системи, що відповідає за трафік, що фільтрується модулем роботів.
В результаті у деяких клієнтів реальний трафік почав блокуватися, тоді як користувачі, які не задіяли модуль, продовжували працювати без перебоїв.
Cloudflare підкреслила, що те, що трапилося, не пов'язане з DNS-системою, кібератаками або впровадженням генеративного ШІ — йдеться про внутрішню помилку логіки оновлення конфігурацій.
Щоб уникнути подібних інцидентів у майбутньому, компанія анонсувала низку заходів:
посилення контролю обробки конфігурацій,
розширення можливостей аварійного відключення функцій,
запобігання перевантаженню системи звітами про помилки,
перегляд режимів стійкості до відмови в критично важливих модулях.
Cloudflare нагадує, що близько 20% світового інтернет-трафіку проходить через її мережу, тому будь-який збій у центральних елементах здатний викликати глобальні наслідки.
Нагадаємо, масштабний збій у роботі Cloudflare: без доступу залишилися популярні сайти по всьому світу.