Первый тест восстановления мы провалили. Технически система поднялась. Продажи не принимались. Склад работал с данными на час раньше. Часть интеграций сломалась. Часть жила в своём мире. Технический результат был. Бизнес-результата не было. И тогда стало понятно: Disaster Recovery заканчивается не запуском сервера. DR заканчивается контрольным заказом, чеком, платежом, актуальным остатком или отчётом. Если контрольный сценарий не пройден, восстановление не завершено. Даже если все серверы уже зелёные. В одном из контуров мы потом довели DR до понятного результата: восстановление критичных сервисов менее чем за час, 0 потерь данных, SLA 100%. Но это получилось не из-за хороших бэкапов. Это получилось после того, как восстановление перестало быть задачей ИТ и стало отрепетированным сценарием компании: кто объявляет аварию; в каком порядке поднимаются системы; кто проверяет интеграции; кто принимает результат от бизнеса; кто и что сообщает CEO. Для собственника сбой - это не ИТ-инцидент. Это остановка денежного контура: заказы не принимаются, отгрузки не подтверждаются, остатки спорные, решения принимаются вслепую. Восстановление менее чем за час начинается не в момент сбоя. Оно начинается в тот день, когда компания впервые репетирует этот час на живом сценарии.
Статья - https://sedegov.ru/blog/vosstanovlenie-1-chasa-chto-dolzhno-byt-gotovo-do-sboia/