Data Quality | Качество данных
30.05
Основы качества данных, глава пятая, часть 2/2
📎 Бизнес хочет видеть данные в режиме реального времени, а не идеальное состояние.
📎 Получение реальных данных как можно быстрее позволяет быть уверенным, что ожидание и реальность совпадут
📎 Важно понимать работоспособность своих данных в текущем состоянии на каждом этапе (наблюдаемость).
📎 В работе с данными можно брать принципы из смежных областей, например, DevOps.
Измерение окупаемости инвестиций в качество
📎 Осознание стоимости простоя поможет бизнесу понять необходимость работы над качеством данных.
📎 Стоимость простоя данных = Почасовая стоимость простоя * (Время обнаружения + Время разрешения)
📎 Время обнаружения - время, которое нужно чтобы владелец данных выявил проблемы любого рода. Может составлять недели и месяцы, когда находят последующие потребители. (TTD)
📎 Время разрешения - время, которое нужно для устранения инцидента. Обычно - минуты, часы, реже - дни. (TTR)
📎 Почасовая стоимость простоя - обобщенный показатель, время разработки, потраченное на один час простоя + влияние простоя на потребителей и бизнес-решения.
📎 Стоимость простоя нужно регулярно пересчитывать с учётом внешних факторов - стоимость рабочей силы, сфера влияния, штрафы и издержки и тд.
📎 Ежегодная стоимость некачественных данных = зарплата инженеров (=количество инженеров * 130% годового оклада) + риск комплаенса (= около 5% годового дохода) + альтернативные издержки ( = упущенная выгода + штрафы и др)
📎 Выделяют несколько способов взаимодействия и реакции на качество данных: ⤴️ Панель мониторинга, которая показывает время обнаружения, время решения и другие показатели; ⤴️ Соглашения об уровне обслуживания (SLA) - про обещания клиентам (например, доступность 99,99%) ⤴️ Индикаторы уровня обслуживания (SLI) - про цифры (например, 100500 ответов или не больше 100 инцидентов в единицу времени) ⤴️ Цели уровня обслуживания (SLO) - про фактические целевые значения для SLI (99% времени обеспечивать 95% качества) ⤴️ Рейтинг поставщика - насколько потребители довольны результатом работы
📎 Важный шаг во взаимодействии - согласование с заинтересованными сторонами того, как они собираются использовать данные и как для них выглядят высококачественные и надежные данные. Это самый простой способ установить правильные соглашения и понять, чему следует отдать приоритет.
📎 Шесть ключевых параметров, на основании которых стоит заключать соглашения: 1️⃣Полнота 2️⃣Своевременность 3️⃣Валидность 4️⃣Точность 5️⃣Согласованность 6️⃣Уникальность
📎 SLA, SLO, SLI нужны для обеспечения надёжности и установления понятных ожиданий, приоритезации интересов и реагирования.
📎 Заключение всех этих соглашений "в воздух" бессмысленно, основываться стоит на реальной ситуации и согласовании со всем готовности к сотрудничеству.
📎 Перед заключением соглашений рекомендуют: 1️⃣Узнать бизнес-приоритеты 2️⃣Понять связь с данными 3️⃣Узнать потребность в высоком качестве данных/терпимость к некачественным данным 4️⃣Наблюдать за текущей ситуацией в части возможных договорённостей 5️⃣Скорректировать ожидания, свои и контрагентов
📎 Порядок заключения соглашений: 1️⃣Определение надежности - понимание, что надежные данные означают для бизнеса, в деталях. 2️⃣Измерить надежность - определить показатели, влияние, ожидание 3️⃣Установить цели и диапазоны приемлемого времени простоя данных, это позволит классифицировать инциденты по уровню приоритета
📎 Выводы: ➡️ Инвестировать в проверки данных и профилирование стоит заранее и во всех областях ➡️ Отказоустойчивая платформа данных нужна и важна ➡️ Заключение и выполнение соглашений об уровне обслуживания повышают качество результатов работы организации
#качестводанных #dataquality #dqfеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
30.05
войдите, чтобы увидеть
и подписаться на интересных профи