Во всем виноваты жаворонки
Blameless Culture: почему поиск виноватого вредит сильнее самого инцидента
Найти виновника и наказать его - объяснимое желание любого пострадавшего. Но при работе с инцидентами такое поведение приносит больше проблем, чем пользы. Google, впервые описавшая культуру SRE, в своих рекомендациях особо подчёркивает: никаких осуждений коллег, только необвинительная культура, или Blameless Culture.
На месте виноватого может оказаться каждый Каким бы опытным ни был инженер, он остаётся человеком. Усталость, незнание, самонадеянность - трудности, знакомые каждому. Вне зависимости от масштаба сбоя, тот, кто его спровоцировал, почти наверняка не хотел доставить проблем остальным. Сама ситуация уже послужила ему уроком. Лучше поддержать коллегу - возможно, когда-нибудь он поддержит вас.
Страх наказания парализует Ожидание негативных санкций за ошибку, даже случайную, заставляет инженера проверять и перепроверять каждое своё действие. На короткой дистанции это может показаться полезным: ошибок меньше. На длинной - инженер медленно выполняет даже простые задачи, тратя силы на избыточную осторожность. Команда начинает избегать любых изменений в системе, потому что нововведения требуют обкатки и повышают вероятность инцидента на первых порах. Девизом таких команд становится "работает - не трогай", что прямо противоречит философии SRE, требующей понимать, как работает каждая часть системы, а не заметать белые пятна под ковёр.
Стресс умножается Шлейф от ожидания наказания тянется далеко за пределы поддержания статус-кво. Любой инцидент - это стресс для всей команды, а ожидание выговора лишь подливает масла в огонь. Учитывая высокую когнитивную нагрузку на инженеров, культура SRE сознательно избегает лишнего давления. Разбор полётов без поиска виноватого - это не мягкотелость, а инженерная прагматика: если команда боится, она не учится, а система не становится надёжнее.
Как у вас принято разбирать инциденты: ищете причину или виноватого?
#sre #blamelessculture #incidentmanagement #reliability #devops #postmortem #productionengineering #teamculture #psychologicalsafety #errorbudget #oncall #observability