Yallax | чат-боты
27.01
5 ЧАСОВ СНА, 8 ЧАШЕК КОФЕ: КАК МЫ СПАСАЛИ ПРОЕКТ ЗА НОЧЬ
Вы когда-нибудь просыпались от звонка в 3 часа ночи? А от сообщения "Все упало, срочно нужна помощь"?
Я проснулся от обоих. Одновременно.
Представьте: Компания по продаже курсовых и рефератов, федеральная сеть, их бот обрабатывает 4к обращений в день. И тут — бам! Система легла. Полностью. А через 5 часов начинается пиковая нагрузка.
Первый час я потратил на диагностику. Логи показывали какую-то дичь: бот начал дублировать ответы, потом зациклился, а потом просто перестал отвечать. Как будто у него случился нервный срыв.
К 4 утра я понял — придется поднимать всю команду. Да, они меня возненавидят. Но проект нужно спасать.
Помню, как наш джун чуть не расплакался, когда я сказал ему подключаться. А девопс философски заметил: "Ну что ж, давно не было такой веселой ночки".
К 5 утра мы нашли причину: обновление базы знаний конфликтовало с основной логикой обработки запросов. Простыми словами — бот пытался использовать новые данные по старым правилам. И его закоротило.
Дальше было как в боевике: - 5:30 — откат обновления - 6:00 — перезапуск основных модулей - 6:30 — тестирование базового функционала - 7:00 — первые живые запросы - 7:30 — полное восстановление
В 8 утра, когда начался поток обращений, система работала как часы. Мы это сделали.
Знаете, что самое забавное? После этого случая мы создали протокол "красной кнопки" — четкий план действий при критических сбоях. И теперь он висит у каждого разработчика над столом.
А еще я понял, что хорошая команда познается не в успехах, а в общих факапах.
Нужен чек-лист критических проверок для вашего бота?
Вадим Белоус
· 25.02
Да, это жёстко
ответить
Серёжа Москвичёв
· 27.01
Интересно, как выглядит этот протокол «красной кнопки» 🫣
ответить
еще контент в этом сообществе
еще контент в этом соообществе
Yallax | чат-боты
27.01
войдите, чтобы увидеть
и подписаться на интересных профи