[SRE] Процентиль Процентиль — это число, которое показывает, какой процент значений в выборке меньше или равен этому числу. Например, 99-й процентиль времени отклика означает, что 99% запросов были выполнены быстрее или равны этому значению.
Почему это важно? В сервисе бывают редкие, но очень долгие запросы — выбросы. Если смотреть только на среднее время, они могут сильно исказить картину.
Пример на пальцах Есть 1000 запросов: - 950 запросов с временем 400 мс - 40 запросов с временем 900 мс - 10 запросов с временем 5 секунд Среднее время будет завышено из-за этих 10 медленных. Но 95-й процентиль равен 900 мс — значит, для 95% пользователей всё работает нормально.
Как использовать в алертах? Следи не за средним временем, а за 95 и 99 процентилями. Если 99-й процентиль растёт — проблема затрагивает многих пользователей, пора принимать меры!
Для чего используют процентиль? - latency (время отклика) сервисов - время ответа базы данных и кеша - длительность сборок - размеры очередей
Почему среднее не всегда достаточно? Среднее скрывает проблемы: если у 1% пользователей всё плохо — об этом можно не узнать, а процентиль покажет реальную картину для большинства.
Пиши вопросы, если что-то неясно — с удовольствием объясню подробнее! Сохрани пост, он пригодится при работе с метриками и алертами 👨💻🟢
еще контент автора
еще контент автора
войдите, чтобы увидеть
и подписаться на интересных профи