Зачем разворачивать Telegraf от InfluxDB для Highload QA

Telegraf на НТ нужен в двух случаях, и оба мы проверили на своей шкуре.

Первый - сбор системных метрик с генераторов нагрузки. Это не только сами генераторы, но и серверы с эмуляциями зависимостей, базы данных, брокеры сообщений, балансировщики. Во время длительных тестов вы должны видеть, что происходит на каждом звене инфраструктуры: улетел ли CPU на генераторе, не забился ли диск логами на эмуляторе, не начал ли брокер задыхаться по памяти. Telegraf легко настраивается на все эти точки и отдаёт метрики в Grafana через InfluxDB.

Второй - резервный канал. У нас был коммунальный Prometheus на весь кластер, и в периоды высокой нагрузки он не справлялся: собирал метрики со всех неймспейсов, плюс тестируемая инфраструктура, плюс серверы генераторов. Prometheus перегружался, и мы теряли видимость именно тогда, когда она была нужнее всего. Telegraf замкнули напрямую в InfluxDB и Grafana, минуя общий Prometheus. Получился независимый контур мониторинга, который не падал вместе с остальной observability-инфраструктурой.

Итог: Telegraf даёт детальные системные метрики по всем узлам НТ и страхует вас, когда общий Prometheus уходит в таймаут. Два сценария, один агент, и вы не остаётесь вслепую на середине теста надёжности.

#telegraf #influxdb #monitoring #loadtesting #observability #sre #qa #performancetesting #grafana #metrics #infrastructure

Зачем разворачивать Telegraf от InfluxDB для Highload QA | Сетка — социальная сеть от hh.ru