Андрей Макаров
Системный администратор в Тензор · 02.03
Эволюция SRE в Google
Сегодня прочитал интересную и тяжело читаемую статью от SRE-инженеров Google: "Эволюция SRE в Google". Авторы утверждают, что для предотвращения сбоев в сложных системах SRE не хватает, необходимо использовать подход STAMP - теоретико-системную модель аварий и процессов. Если честно, после 2-х прочтений, полного представления о STAMP не появилось 🥲 К счастью я нашел на GitHub репозиторий с большим количеством теории по STAMP, а также по другим сопутствующим методам анализа: STPA и CAST. В репозитории также есть handbook по CAST на 200+ страниц, ближайшую неделю постараюсь более глубоко погрузиться в тему и разобраться, почему STAMP называют эволюцией SRE и можно ли это использовать в более мелких компаниях (в сравнении с Google разумеется). Кто-нибудь уже успел погрузиться в "эволюционный" подход от Google?)
еще контент автора
еще контент автора
Андрей Макаров
Системный администратор в Тензор · 02.03
войдите, чтобы увидеть
и подписаться на интересных профи