[SRE] Показатель SLI на практике

Я простыми словами рассказывал как выбрать SLI и какие SLI использовать. Теперь расскажу, как собирать метрики.

Основные показатели Удобно и правильно собирать через системы мониторинга, чаще всего — Prometheus. Например, для веб-приложения можно отслеживать:

  • долю успешных HTTP-ответов (2xx и 3xx),

  • время отклика основных эндпоинтов,

  • количество ошибок 5xx (серверных ошибок).

Также можно анализировать логи и строить на их основе метрики, например, отношение ответов HTTP 500 к общему числу запросов. Для этого часто применяют ElasticSearch или Loki.

Метрики «от пользователя» Очень важно смотреть на поведение системы с клиентской стороны, так как оно может отличаться от серверных данных. Например:

  • Сервер отвечает быстро, но страница у пользователя загружается долго из-за тяжёлых скриптов JavaScript.

  • У клиента могут быть перебои с сетью, о которых сервер «не знает».

Для таких случаев отлично подходят инструменты вроде blackbox exporter, которые периодически посылают запросы к сервису и замеряют время отклика и доступность со стороны клиента.

Итоги Тут я затронул лишь вершину айсберга, но углубляться не очень хотелось, если нужно - дайте знать! А пока остаемся на связи и дальше расскажу про агрегирование метрик!


В этом посте были ссылки, но мы их удалили по правилам Сетки

[SRE] Показатель SLI на практике
Я простыми словами рассказывал как выбрать SLI и какие SLI использовать. Теперь расскажу, как собирать метрики | Сетка — социальная сеть от hh.ru