Игнатий Цукергохер
07.04
⏺ Яндекс опубликовал на Хабре статью с полным описанием инцидента 30 марта
Как указано в статье, в результате аварии на опорной подстанции отказали два ввода питания, что привело к каскадному сбою оборудования и недоступности сервисов. Выдержка из статьи:
В 12:25 воскресенья на мониторинге мы заметили недоступность дата‑центра по питанию и сразу приступили к выяснению и устранению проблемы. Как было видно в системе, в 12:18 на площадке запустились ДРИБП (дизель‑роторные источники бесперебойного питания), но уже в 12:20 стало наблюдаться «резкое занижение напряжения». В 12:27 главный инженер обслуживающей организации связался с дата‑центром и сообщил, что на подстанции отключились обе линии 110 кВ, но причина пока неизвестна. А значит, у нас Проблема № 1: сразу две точки отказа по питанию с непонятным прогнозом, а дизель‑генераторы просто не рассчитаны на то, чтобы принять такую нагрузку.
В целом в публикации прям детально описывается структура энергоснабжения дата-центра, включая системы резервирования и защиты на случай аварий, дается ход событий во время инцидента, анализируются причины и последствия сбоя. Очень хорошая практика, делиться информацией о таких вещах.
💬 Читать по ссылке.
#сбои #Яндекс@divannyi_it подписаться
еще контент в этом сообществе
еще контент в этом соообществе
Игнатий Цукергохер
07.04
войдите, чтобы увидеть
и подписаться на интересных профи