Эволюция SRE в Google

Сегодня прочитал интересную и тяжело читаемую статью от SRE-инженеров Google: "Эволюция SRE в Google". Авторы утверждают, что для предотвращения сбоев в сложных системах SRE не хватает, необходимо использовать подход STAMP - теоретико-системную модель аварий и процессов. Если честно, после 2-х прочтений, полного представления о STAMP не появилось 🥲 К счастью я нашел на GitHub репозиторий с большим количеством теории по STAMP, а также по другим сопутствующим методам анализа: STPA и CAST. В репозитории также есть handbook по CAST на 200+ страниц, ближайшую неделю постараюсь более глубоко погрузиться в тему и разобраться, почему STAMP называют эволюцией SRE и можно ли это использовать в более мелких компаниях (в сравнении с Google разумеется). Кто-нибудь уже успел погрузиться в "эволюционный" подход от Google?)

repost

140

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь