Надёжность vs Доступность — что первично?

Привет, %username%! Интуитивно кажется, что эти два понятия — синонимы или как минимум равноценные метрики. Однако правильный ответ кроется в том, что надёжность всегда первична, а доступность — лишь один из её компонентов.

Доступность измеряет простой факт: ответила система или нет. Классическая ловушка выглядит так: сервис персонализации лёг, но бэкенд отдал пользователю кэш с HTTP-кодом 200. В этот момент дашборд зелёный, аптайм не пострадал, но пользователь получил деградацию опыта. Доступность говорит, что всё отлично, но надёжность пробита, так как система не выполнила функцию с заданным качеством.

На практике понимание разницы между этими понятиями сводится к трем вещам:

  • Аптайм является необходимым, но недостаточным условием. Введи Quality SLI, чтобы проверять не просто факт ответа сервиса, а ответ с полным ожидаемым функционалом.
  • Метрики MTBF и MTTR нужно смотреть исключительно вместе. Низкий MTTR при низком MTBF означает, что ты быстро поднимаешь сервис, но слишком часто падаешь, из-за чего пользователи всё равно страдают.
  • Стопроцентный аптайм — это иллюзия, для достижения которой нужно знать состояние каждого транзистора и маршрут каждого пакета. SRE осознанно отказывается от этой гонки, устанавливая реалистичный SLO (например, 99.9%) и управляя Error Budget для баланса скорости и стабильности.

Математика тоже на стороне скорости восстановления. Формула доступности A = MTTF / (MTTF + MTTR) показывает два пути развития. Гнаться за бесконечным временем до отказа (MTTF) невероятно дорого, поэтому снижать MTTR через автоматизацию восстановления экономически выгоднее.

И самое важное — надёжность не является продуктом одной команды. Если SRE воспринимается как единственный ответственный за стабильность, это явный антипаттерн. Требуемый уровень надёжности — это продуктовый вопрос, где бизнес решает, какой SLO нужен, а SRE лишь выступает архитектором и помогает его достичь.

Делись опытом в комментариях! Как в твоей компании разделяют ответственность за надёжность между SRE и продуктом? Какие Quality SLI помогают вам ловить деградацию до того, как просядет аптайм?

#SRE #DevOps #Reliability #Availability #SLO #SLI #ErrorBudget #Observability