Яндекс опубликовал на Хабре статью с полным описанием инцидента 30 марта

Как указано в статье, в результате аварии на опорной подстанции отказали два ввода питания, что привело к каскадному сбою оборудования и недоступности сервисов.​ Выдержка из статьи:

В 12:25 воскресенья на мониторинге мы заметили недоступность дата‑центра по питанию и сразу приступили к выяснению и устранению проблемы. Как было видно в системе, в 12:18 на площадке запустились ДРИБП (дизель‑роторные источники бесперебойного питания), но уже в 12:20 стало наблюдаться «резкое занижение напряжения». В 12:27 главный инженер обслуживающей организации связался с дата‑центром и сообщил, что на подстанции отключились обе линии 110 кВ, но причина пока неизвестна. А значит, у нас Проблема № 1: сразу две точки отказа по питанию с непонятным прогнозом, а дизель‑генераторы просто не рассчитаны на то, чтобы принять такую нагрузку.

В целом в публикации прям детально описывается структура энергоснабжения дата-центра, включая системы резервирования и защиты на случай аварий, дается ход событий во время инцидента, анализируются причины и последствия сбоя. Очень хорошая практика, делиться информацией о таких вещах.

💬 Читать по ссылке.

#сбои #Яндекс

@divannyi_it подписаться

repost

4

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь