Надеяться - плохая стратегия

Почему сисадмины исторически стали первыми SRE Традиционная поговорка из любимой SRE-бук "Hope is not a strategy" звучит как мантра, но мало кто задумывается, откуда вообще взялся этот подход. А корни уходят в эпоху, когда сложные системы запускали не девопсы и не платформенные инженеры, а классические сисадмины. Мой первый руководитель, еще когда я работал в телекоме в 2022г говорил: "Хороший админ отличается от плохого не тем, что у него сервера не падают, а тем, что он уже знает, что будет делать, когда они упадут". Тогда я не понимал глубины этой мысли. Казалось, главное - настроить мониторинг, сделать бэкапы и молиться, чтобы всё работало. Но реальная эксплуатация учила другому: любой компонент системы рано или поздно откажет, и вопрос только в том, застанет ли это тебя врасплох. Сисадминов нанимали именно потому, что production-среда - это хаос по определению. Админ становился тем человеком, который превращал надежду в процесс: runbooks вместо "клянусь, я помню как это чинить", чек-листы вместо "да тут главное привыкнуть)", capacity planning вместо "поживем увидим😁". SRE просто формализовали эту практику через error budget и toil reduction. Но корень один - профессиональная паранойя, которая требует доказательств, а не веры в то, что система выдержит. Я до сих пор считаю, что лучшие инженеры по надёжности выходят из тех, кто хоть раз поднимал упавший прод голыми руками в 4 утра и после этого написал первый алерт. Что для вас было моментом перехода от надежды к холодному расчёту в эксплуатации: конкретный инцидент или постепенное накопление шишек? #sre #sysadmin #reliability #devops #productionengineering #operations #incidentmanagement #capacityplanning #monitoring

Надеяться - плохая стратегия | Сетка — социальная сеть от hh.ru