Приветствую!

Я Владимир Патрушев, возглавляю команды SRE и SysOps в Литрес.

Литрес – это сервис цифровых книг, в котором более 1 миллиона книг, аудиокниг и подкастов. А моя работа состоит в том, чтобы за этим миллионом стояла надежная, хоть и не гигантская, Bare Metal инфраструктура, которая просто работает. Без перебоев.

Мы отвечаем за стабильность, скорость и доступность. В условиях, когда мы управляем собственным железом и не можем просто "добавить нод в облаке", каждое архитектурное решение и каждое дежурство имеет высокую цену. Инциденты, конечно, случаются – и это нормально. Наша задача – учиться на них быстрее, чем они повторятся.

О чем я планирую писать здесь:

  • SRE на своем "железе": Как мы внедряем принципы надежности Google, оставаясь в парадигме Bare Metal. Это требует изобретательности, а не просто бюджета.
  • Анатомия инцидента: Обмен опытом – честные Post Mortem: что пошло не так, и как мы это исправили навсегда (а не до следующего раза).
  • Автоматизация рутины: Охота на "обезьянью работу" и наш опыт, как высвободить время инженеров для реальных архитектурных задач.
  • Команда и культура: Как мы строим среду, где ценится внимательность к деталям, а страх ошибки заменяется тягой к обучению.

Буду рад конструктивному диалогу и обмену опытом с коллегами по цеху. #Litres #SRE #SysOps #BareMetal #Инфраструктура #ТехническоеЛидерство #IT