Как мы перестали будить 4 человек ради робо-обзвона
Как мы перестали будить 4 человек ради робо-обзвона и заставили Graylog работать курьером
Мы работали с телеком-оператором, который обслуживал сеть частных клиник. Каждый четверг, с самого утра, мы собирались вчетвером на "горячую" проверку: звонили роботами по тестовым каналам в поликлиники и слушали, как робот пытается распознать речь пациента и записать его на процедуру. Это был обязательный регресс перед пиковой нагрузкой в середине дня. Мы боялись новых патчей, слитых в прод, и хотели поймать ошибки до того, как их заметят клиенты.
На этот ритуал уходило 2 часа сплоченной работы четверых инженеров QA. Проблемы с распознаванием всплывали нестабильно, и мы тратили уйму времени, просто ожидая падения. В какой-то момент я понял: мы сидим и вручную слушаем то, что уже написано в логах. Логи сыпались в Graylog, но ими никто не занимался. Я предложил инициативу: отлавливать ошибки автоматически по бэку робо-обзвонов, когда робот не может опознать речь.
Мне дали доступ к Graylog и два рабочих дня. За это время я настроил стримы и сконфигурировал условия для триггеров. Основное время ушло не на сам алертинг, а на отстройку шумов - чтобы алерты не спамили на каждую мелкую заминку в сети, а ловили именно ошибки распознавания. Финишным штрихом прикрутил вебхук в RocketChat нашей команды: в чат прилетал фрагмент трейса с названием ошибки и ссылкой на лог. Никаких красивых дашбордов - только сухие факты в SRE-стиле.
Результат перевернул процесс. Вместо четырех QA, которые два часа висели на телефонах, остался один оператор техподдержки и двое QA. Теперь они заходили в чат и реагировали не на "а давайте позвоним и проверим", а на конкретные трейсы из моих алертов. 50% рутины ушло. Бизнес заметил это сам: ребята освободились под более приоритетные задачи, а точность отлова ошибок выросла.
Этот кейс показал мне простую вещь: иногда ты не автоматизируешь тестирование как таковое, а просто перестаешь делать работу, которую за тебя уже сделали логи. Вопрос лишь в том, кто первый их прочитает - ты или алерт. А как вы сейчас мониторите ошибки в асинхронных каналах типа звонков или чат-ботов?
#graylog #rocketchat #qaautomation #alerting #robocalls #sre #monitoring #logmanagement #webhook #rca #telecom #regressiontesting