Инциденты неизбежны — но как вы на них реагируете, определяет, насколько устойчива ваша компания

Привет, %username%! Мне тут попалась статья "The Incident Maturity Model" – если убрать шелуху с продажей продукта, то вот что есть сказать:

  • Без косяков никуда, но главное - как мы на них реагируем, а не сколько их вообще происходит;
  • У многих компаний получается какой-то замкнутый круг: всё сложно → косяки редко, но метко → реагируем слабо → инфы не хватает → и всё по новой;
  • Чтобы расти в плане работы с инцидентами, есть три ступени: всё в одних руках, распределяем ответственность и когда все в теме;
  • На первой ступени (всё в одних руках) за всё отвечает одна команда. Из-за этого они перегружены, все боятся этих инцидентов при этом другие вообще не парятся;
  • На второй ступени (распределяем ответственность) команды сами разруливают инциденты. Так получается быстрее, инструменты становятся лучше и всё работает стабильнее. Главное тут - хорошо всех обучить и сделать так, чтобы все работали одинаково;
  • На третьей ступени (когда все в теме) любой сотрудник может сообщить об инциденте, поучаствовать в решении проблемы и помочь;
  • Если на ранних этапах подключать поддержку, юристов и даже клиентов, то проблемы находятся быстрее и решаются лучше;
  • Чтобы перейти от второй ступени к третьей, нужно подключить руководителей из разных отделов и автоматизировать уведомления;
  • Главное – не просто быстро тушить пожары, а учиться на каждом косяке и делать так, чтобы в будущем всё работало как часы;

На каком этапе находится твоя компания прямо сейчас? Что у тебя сейчас является самым узким местом в реагировании на инциденты? Есть ли у вас единый плейбук инцидентов? Как часто его обновляете? Какая автоматизация больше всего окупилась (алерты, рута‑коз, эскалации, шаблоны коммуникаций)?

#IncidentManagement #SRE #DevOps #Reliability #Postmortem #MTTR #Observability