100% доступности в IT не существует.

Это не инженерный тезис, это математика.

Чтобы не играть в абстрактные девятки, переведём проценты в минуты простоя за 30 дней. 99% - это 7 часов 12 минут простоя в месяц. 99,9% - 43 минуты. 99,99% - четыре минуты. Четыре минуты на всё: на отказы, на деплои, на перестроение консьюмеров Kafka, на залипший connection pool. Каждая следующая девятка съедает экспоненциально больше ресурсов.

Посмотрите на SLA крупных сервисов. Gmail в составе Google Workspace официально обещает 99,9% в месяц, и это с кредитами за простой. Управляемые сервисы Google Cloud добираются до 99,99%, но только в определённых конфигурациях с HA, синхронной репликацией и ценником за избыточность. Не потому что Google не умеет лучше. Потому что после определённого порога цена надёжности становится нелинейной.

Часто бизнес приходит с требованием “нужно 99,99% на запуск музыкального трека”. Звучит красиво, но давайте посчитаем. Запуск трека идёт через цепочку: API, авторизация, каталог, DRM, хранилище. Допустим, у каждого сервиса свои SLI: API - 99,8%, Auth - 99,9%, Catalog - 99,85%, DRM - 99,7%, Storage - 99,8%. Если параллельного резервирования нет, итоговая доступность примерно равна произведению доступностей звеньев. На выходе получаем 99,35%, а не 99,99%. Соглашаться на SLA выше реальной архитектурной планки бессмысленно: ты либо врёшь бизнесу, либо закладываешь бюджет на круглосуточное дежурство, резервные мощности, которые простаивают 99% времени, и zero-downtime деплои.

SRE учит не обещать недостижимое, а считать error budget и показывать, где архитектура упирается в потолок. Четыре минуты простоя в месяц - это не "мы постараемся”, это ”у нас есть резервный дата-центр, синхронная реплика и команда на дежурстве 24/7, две овчарки и вооруженная охрана для цода”.

Вы когда-нибудь пересчитывали реальный SLA своего сервиса по самому слабому звену в цепочке? #sre #sla #sli #slo #reliability #highavailability #errorbudget #devops #observability #systemdesign #loadtesting #availability #distributedsystems #productionengineering #incidentmanagement

100% доступности в IT не существует. | Сетка — социальная сеть от hh.ru