[SRE] Показатель SLI на практике
Я простыми словами рассказывал как выбрать SLI и какие SLI использовать. Теперь расскажу, как собирать метрики.
Основные показатели Удобно и правильно собирать через системы мониторинга, чаще всего — Prometheus. Например, для веб-приложения можно отслеживать:
-
долю успешных HTTP-ответов (2xx и 3xx),
-
время отклика основных эндпоинтов,
-
количество ошибок 5xx (серверных ошибок).
Также можно анализировать логи и строить на их основе метрики, например, отношение ответов HTTP 500 к общему числу запросов. Для этого часто применяют ElasticSearch или Loki.
Метрики «от пользователя» Очень важно смотреть на поведение системы с клиентской стороны, так как оно может отличаться от серверных данных. Например:
-
Сервер отвечает быстро, но страница у пользователя загружается долго из-за тяжёлых скриптов JavaScript.
-
У клиента могут быть перебои с сетью, о которых сервер «не знает».
Для таких случаев отлично подходят инструменты вроде blackbox exporter, которые периодически посылают запросы к сервису и замеряют время отклика и доступность со стороны клиента.
Итоги Тут я затронул лишь вершину айсберга, но углубляться не очень хотелось, если нужно - дайте знать! А пока остаемся на связи и дальше расскажу про агрегирование метрик!
В этом посте были ссылки, но мы их удалили по правилам Сетки