Один баг остановил полмира
Летом 2024 года из-за неудачного обновления CrowdStrike миллионы компьютеров с Windows перестали загружаться. Аэропорты отменяли рейсы, банки ограничивали работу, больницы переходили на бумажные процессы, а компании по всему миру пытались вернуть сотрудников к работе.
Когда я прочитал эту новость впервые, казалось, что причина должна быть невероятно сложной. На как же все оказалось глупо. Это было очередное обновление ПО. И ошибка дала о себе знать слишком больно.
Суть бага здесь вообще не играет роли. Лучше задать вопрос почему это случилось так массово? Почему одна ошибка смогла затронуть тысячи компаний, которые вообще не имеют отношения к CrowdStrike?
Так изменилось IT сегодня. Это огромная экосистема нашей планеты. Любой сервис зависит от десятков других сервисов, библиотек и подрядчиков. Поэтому иногда достаточно одного неудачного обновления, чтобы последствия почувствовал весь мир.
Вывод будет? Вот он. Качество продукта определяется не только тем, сколько багов нашел тестировщик до релиза.Об этом я кстати говоорю постоянно. Настоящее качество проявляется в том, насколько спокойно система переживает неизбежные ошибки. Можно ли быстро откатить обновление? Постепенно ли оно раскатывается? Поймут ли инженеры за минуты, что что-то пошло не так?
Встречали критичный баг? Если да, то ставьте 💜и расскажите кто накосячмл😉