Александр Гулаксизов пишет:

Зачем разворачивать Telegraf от InfluxDB для Highload QA

Telegraf на НТ нужен в двух случаях, и оба мы проверили на своей шкуре.

Первый - сбор системных метрик с генераторов нагрузки. Это не только сами генераторы, но и серверы с эмуляциями зависимостей, базы данных, брокеры сообщений, балансировщики. Во время длительных тестов вы должны видеть, что происходит на каждом звене инфраструктуры: улетел ли CPU на генераторе, не забился ли диск логами на эмуляторе, не начал ли брокер задыхаться по памяти. Telegraf легко настраивается на все эти точки и отдаёт метрики в Grafana через InfluxDB.

Второй - резервный канал. У нас был коммунальный Prometheus на весь кластер, и в периоды высокой нагрузки он не справлялся: собирал метрики со всех неймспейсов, плюс тестируемая инфраструктура, плюс серверы генераторов. Prometheus перегружался, и мы теряли видимость именно тогда, когда она была нужнее всего. Telegraf замкнули напрямую в InfluxDB и Grafana, минуя общий Prometheus. Получился независимый контур мониторинга, который не падал вместе с остальной observability-инфраструктурой.

Итог: Telegraf даёт детальные системные метрики по всем узлам НТ и страхует вас, когда общий Prometheus уходит в таймаут. Два сценария, один агент, и вы не остаётесь вслепую на середине теста надёжности.

#telegraf #influxdb #monitoring #loadtesting #observability #sre #qa #performancetesting #grafana #metrics #infrastructure

Зачем разворачивать Telegraf от InfluxDB для Highload QA | Сетка — социальная сеть от hh.ru

еще контент автора

Связь TG: QAlexSRE Performance Engineer | SRE | Reliability Engineer | Load Testing | 4+ yrs

Зачем разворачивать Telegraf от InfluxDB для Highload QA

еще контент автора

мы не знаем, безопасна ли ссылка

Связь TG: QAlexSRE Performance Engineer | SRE | Reliability Engineer | Load Testing | 4+ yrs

Зачем разворачивать Telegraf от InfluxDB для Highload QA

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка