[SRE] Бюджет ошибок №2
Знаешь, что такое SLO? Так вот, без него тут никак. Чтобы сформировать объективный бюджет ошибок, нужно от чего-то отталкиваться.
Лучший вариант — от SLO (целевой уровень обслуживания) и фактического уровня бесперебойной работы. Именно эта пара помогает исключить «политическое влияние» и эмоции при договорённостях между SRE и разработчиками.
Алгоритм 1. SLO — задаёт менеджер продукта. 2. Реальное uptime — берём из мониторинга. 3. Бюджет ошибок = Uptime − SLO. 4. Пока Uptime > SLO — есть запас, можно релизить. 5. Если Uptime < SLO — стоп релизам, усиливаем надёжность.
Плюсы подхода - минусов не будет! • Фокус на балансе «надёжность = инновации» • Меньше конфликтов: ссылаемся на цифры • Помогает понять, что SLO задран слишком высоко • Доволен клиент → доволен бизнес → довольна команда Итог Бюджет ошибок объединяет разработчиков и SRE, делает всех ответственными за продукт и позволяет принимать решения про фичи или стабильность без лишних эмоций.
Ставь лайкосик 👍, дальше — больше, подпишись!
В этом посте были ссылки, но мы их удалили по правилам Сетки
еще контент автора
еще контент автора
войдите, чтобы увидеть
и подписаться на интересных профи