Зачем разворачивать Telegraf от InfluxDB для Highload QA
Telegraf на НТ нужен в двух случаях, и оба мы проверили на своей шкуре.
Первый - сбор системных метрик с генераторов нагрузки. Это не только сами генераторы, но и серверы с эмуляциями зависимостей, базы данных, брокеры сообщений, балансировщики. Во время длительных тестов вы должны видеть, что происходит на каждом звене инфраструктуры: улетел ли CPU на генераторе, не забился ли диск логами на эмуляторе, не начал ли брокер задыхаться по памяти. Telegraf легко настраивается на все эти точки и отдаёт метрики в Grafana через InfluxDB.
Второй - резервный канал. У нас был коммунальный Prometheus на весь кластер, и в периоды высокой нагрузки он не справлялся: собирал метрики со всех неймспейсов, плюс тестируемая инфраструктура, плюс серверы генераторов. Prometheus перегружался, и мы теряли видимость именно тогда, когда она была нужнее всего. Telegraf замкнули напрямую в InfluxDB и Grafana, минуя общий Prometheus. Получился независимый контур мониторинга, который не падал вместе с остальной observability-инфраструктурой.
Итог: Telegraf даёт детальные системные метрики по всем узлам НТ и страхует вас, когда общий Prometheus уходит в таймаут. Два сценария, один агент, и вы не остаётесь вслепую на середине теста надёжности.
#telegraf #influxdb #monitoring #loadtesting #observability #sre #qa #performancetesting #grafana #metrics #infrastructure