Зачем подключать Алерты для генераторов НТ

(Практический кейс, который продвигали на проекты Сбера и позитива)

Генераторы падают в самый неподходящий момент, и вы узнаете об этом не из Grafana, а когда тест уже испорчен. Особенно обидно на длинных прогонах: запустили тест надежности с пятницы по понедельник, ушли на выходные, а генератор лёг в субботу утром из-за утечки памяти в неоптимизированном скрипте. Два дня теста в мусор, перезапускать в понедельник.

Мы завели состояние генераторов в алерт-менеджер через Prometheus. В scrape_configs добавили джобу linux-servers с таргетами на IP генераторных машин и лейблом env: loadtestgens. Алерты настроили на CPU, диски и загруженность ядра. Использовали два агента параллельно: NodeExporter для алертов в алерт-менеджер и Telegraf для резервного вывода метрик в Grafana. Дублирование не от хорошей жизни: общий Prometheus перегружался службами других коллег, и нам нужен был независимый канал, чтобы не пропустить момент, когда генераторы начинают перегреваться.

Реальная польза пришла, когда коллега ушёл в отпуск и оставил неоптимизированный скрипт, который никогда раньше не запускал, только настроил. Скрипт начал отъедать память, сработал алерт, мы подключились за пять минут, восстановили генераторы и продолжили тест без потери данных. Если бы алерта не было, тест рухнул бы через час, а узнали бы мы об этом только в понедельник.

Алерты на генераторы нужны не для красоты, а для того, чтобы ловить момент, когда ещё можно восстановиться без перезапуска всего прогона. Пять минут реакции против двух дней потерянного времени. Это чистая математика экономии трудозатрат, и она работает на каждом длинном тесте.

#loadtesting #monitoring #alerting #prometheus #nodeexporter #telegraf #grafana #sre #qa #reliabilitytesting #testautomation #observability

Зачем подключать Алерты для генераторов НТ | Сетка — социальная сеть от hh.ru