Кроме Аэрофлота прилетело ещё много кому за эту неделю - перечислять устанешь. Да и Винлаб, кажется, ещё толком не поднялся (тут кстати он работает, но без программы лояльности). И можно продолжать кивать на недостаток высоквалифицированных низкооплачиваемых ИБ-специалистов на рынке, но я про это не буду, а продолжу, собственно про инфраструктуру.
Наверное, вы слышали термин "управляемая деградация" - когда из-за атаки или инфраструктурного инцидента мы отключаем всякое не очень нужное, сохраняя критически важную для существования бизнеса функциональность. Обычно про управляемую деградацию мыслят в рамках IT - отключим часть серверов, какие-то второстепенные функции в ЛК, будем части пользователей показывать плашку о неполадках и просить зайти попозже...
Но почему-то у нас в IT упорно считают, что мы являемся первопроходцами и наш опыт уникален. Да щас! Всё уже придумано до нас.
Взять, например, РЖД. Помимо привычного нам дублирования каналов связи, важных узлов и систем существует ещё и несколько независимых протоколов управления, работа с которыми регулярно проверяется. Вплоть до того, что диспетчеризация поездов может осуществляться по телефону или вообще с помощью телеграмм. Да, эффективность и скорость принятия решений снижается, но система может функционировать даже в случае ядерной войны (буквально).
Ну и разумеется есть ремонтные бригады (с жёстким SLA на время восстановления движения), есть резервные поездные бригады, тепловозы (на случай отказа контактной сети на каком-либо участке) и так далее и так далее. Многие нормативы, кстати, ещё от МПС СССР достались, и с тех пор не раз уже доказали свою нужность и полезность.
Так что когда будете писать/обновлять DRP не забудьте про управляемую деградацию, причём не только для ваших микросервисов, но и для процессов.
Например:
-
резервный чат/канал в ТГ на случай падения рабочего мессенджера. При этом списочный состав чата должен поддерживаться актуальным, потому что в случае отказа, например, корп. портала, искать телефоны коллег будет негде
-
резервные копии наиболее важной документации в виде PDF, на случай недоступности корпоративной вики
-
отработанный алгоритм оповещения сотрудников на случай полного отказа корпоративных систем. Важно вовремя донести что случилось, каков масштаб проблемы и т.д.
-
тестирование работы офиса/магазина/склада в условиях оффлайн, когда корпоративный ЦОД и даже просто Интернет полностью недоступны на какое-то время. Режим хардкор: тоже самое, но ещё и без электричества "от города".
-
отработанный алгоритм запуска этого самого DRP вообще с нуля, без какого-либо доступа к внутренним подсистемам (считаем, что их все пожрал шифровальщик)
Накидывайте в комментарии, что ещё в план стоит добавить.
@snakeslair #drp