Как в Google.

Сегодня хочу поделиться с вами книгой, которую вы все прекрасно знаете — Site Reliability Engineering: How Google Runs Production Systems. Уже скоро будет 10 лет, как ее катнули в продакшен. Она была подготовлена под редакцией Найл Ричард Мёрфи, Бетси Бейер и еще пары редакторов. Кроме них, в написании книги принимали участие несколько инженеров из Google, которые делятся своим опытом и практиками в области Site Reliability Engineering (SRE). Это коллективная работа, объединяющая множество голосов и экспертиз из различных аспектов SRE.

SRE — это подход, который сочетает в себе принципы разработки программного обеспечения и ИТ-операций для повышения надежности систем. Выделяется своим акцентом на использование инженерных практик для решения эксплуатационных задач. Основная цель SRE — создание системы, которая может эффективно справляться с ошибками и неожиданными нагрузками.

Если бы можно было отжать книгу и оставить всего две большие идеи, то я бы выбрал эти:

🔵Интеграция разработки и операционной деятельности через надежность: SRE основано на тесной интеграции между разработкой программного обеспечения и операционной деятельностью. Это достигается путем применения инженерных практик к задачам эксплуатации системы, что позволяет обеспечить надежность и устойчивость. Измерение и управление надежностью через использование метрик, таких как уровни обслуживания (SLO) и цели уровня обслуживания (SLI), помогает установлению четких ожиданий и упрощает принятие решений о приоритетах и ресурсах.

🔵Автоматизация и снижение человеческой ошибки: Одной из основных идей SRE является максимальная автоматизация рутинных задач. Это не только освобождает ресурсы для работы над более сложными и творческими задачами, но и существенно снижает риски, связанные с человеческой ошибкой. Операции и процессы автоматизируются с целью улучшения надежности, повышения качества обслуживания и уменьшения ручного труда. Автоматизация также способствует быстрой адаптации к изменениям и обеспечивает стройность и эффективность операционных процессов.

Эти концепции подчеркивают необходимость гармоничного сочетания инженерных практик и стратегий управления для достижения высоких стандартов надежности и производительности в современных технологических системах. Но вы можете со мной не согласиться и, прочитав книгу, сделать свои выводы:

Jennifer Petoff, Betsy Beyer, Chris Jones, Niall Richard Murphy — Site Reliability Engineering: How Google Runs Production Systems. или в электронном виде.

Дженнифер Петофф, Бетси Бейер, Крис Джонс, Найл Ричард Мёрфи — Site Reliability Engineering. Надежность и безотказность как в Google или в электронном виде.

Уже читал — 🤩 Буду читать электронный вариант — 👀 Буду читать бумажный вариант — 🔥 Не актуально — 🗿

Как в Google.
Сегодня хочу поделиться с вами книгой, которую вы все прекрасно знаете — Site Reliability Engineering: How Google Runs Production Systems | Сетка — новая социальная сеть от hh.ru
repost

28

input message

напишите коммент

Прочел, но пользу не нашёл ещё для своей инфраструктуры

ответить

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь