Надёжность vs Доступность — что первично?
Привет, %username%! Интуитивно кажется, что эти два понятия — синонимы или как минимум равноценные метрики. Однако правильный ответ кроется в том, что надёжность всегда первична, а доступность — лишь один из её компонентов.
Доступность измеряет простой факт: ответила система или нет. Классическая ловушка выглядит так: сервис персонализации лёг, но бэкенд отдал пользователю кэш с HTTP-кодом 200. В этот момент дашборд зелёный, аптайм не пострадал, но пользователь получил деградацию опыта. Доступность говорит, что всё отлично, но надёжность пробита, так как система не выполнила функцию с заданным качеством.
На практике понимание разницы между этими понятиями сводится к трем вещам:
- Аптайм является необходимым, но недостаточным условием. Введи Quality SLI, чтобы проверять не просто факт ответа сервиса, а ответ с полным ожидаемым функционалом.
- Метрики MTBF и MTTR нужно смотреть исключительно вместе. Низкий MTTR при низком MTBF означает, что ты быстро поднимаешь сервис, но слишком часто падаешь, из-за чего пользователи всё равно страдают.
- Стопроцентный аптайм — это иллюзия, для достижения которой нужно знать состояние каждого транзистора и маршрут каждого пакета. SRE осознанно отказывается от этой гонки, устанавливая реалистичный SLO (например, 99.9%) и управляя Error Budget для баланса скорости и стабильности.
Математика тоже на стороне скорости восстановления. Формула доступности A = MTTF / (MTTF + MTTR) показывает два пути развития. Гнаться за бесконечным временем до отказа (MTTF) невероятно дорого, поэтому снижать MTTR через автоматизацию восстановления экономически выгоднее.
И самое важное — надёжность не является продуктом одной команды. Если SRE воспринимается как единственный ответственный за стабильность, это явный антипаттерн. Требуемый уровень надёжности — это продуктовый вопрос, где бизнес решает, какой SLO нужен, а SRE лишь выступает архитектором и помогает его достичь.
Делись опытом в комментариях! Как в твоей компании разделяют ответственность за надёжность между SRE и продуктом? Какие Quality SLI помогают вам ловить деградацию до того, как просядет аптайм?
#SRE #DevOps #Reliability #Availability #SLO #SLI #ErrorBudget #Observability
· 17.04
хороший вопрос для собесов кстати. чаще всего путают когда спрашивают про sla — люди говорят "99.9% доступность" и думают что это и есть надёжность. на практике система может быть доступна, но отдавать кривые данные. это уже reliability, и это другой разговор
ответить
коммент удалён