[SRE] Бюджет ошибок №2

Знаешь, что такое SLO? Так вот, без него тут никак. Чтобы сформировать объективный бюджет ошибок, нужно от чего-то отталкиваться.

Лучший вариант — от SLO (целевой уровень обслуживания) и фактического уровня бесперебойной работы. Именно эта пара помогает исключить «политическое влияние» и эмоции при договорённостях между SRE и разработчиками.

Алгоритм 1. SLO — задаёт менеджер продукта. 2. Реальное uptime — берём из мониторинга. 3. Бюджет ошибок = Uptime − SLO. 4. Пока Uptime > SLO — есть запас, можно релизить. 5. Если Uptime < SLO — стоп релизам, усиливаем надёжность.

Плюсы подхода - минусов не будет! • Фокус на балансе «надёжность = инновации» • Меньше конфликтов: ссылаемся на цифры • Помогает понять, что SLO задран слишком высоко • Доволен клиент → доволен бизнес → довольна команда Итог Бюджет ошибок объединяет разработчиков и SRE, делает всех ответственными за продукт и позволяет принимать решения про фичи или стабильность без лишних эмоций.

Ставь лайкосик 👍, дальше — больше, подпишись!


В этом посте были ссылки, но мы их удалили по правилам Сетки

[SRE] Бюджет ошибок №2
Знаешь, что такое SLO? Так вот, без него тут никак. Чтобы сформировать объективный бюджет ошибок, нужно от чего-то отталкиваться | Сетка — социальная сеть от hh.ru
repost

92

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь