Основы качества данных, глава пятая, часть 1/2.

Мысли об архитектуре для обеспечения надёжности данных.

📎 Большие корпорации уже больше 5 лет говорят о том, что качественные данные лежат в их основе.

📎 Надёжность данных является результатом высокого качества данных. Это способность обеспечить доступность и работоспособность данных.

📎 Её нужно целенаправленно встраивать на все уровни.

📎 Качество принимаемых решений зависит от данных.

📎 Обнаружение проблем с данными в момент их приёма может свести к минимуму большие проблемы в дальнейшем.

📎 Обогащение данных может повысить их ценность, сделать более полезными и надёжными.

📎 Основные типы тестирования качества данных: ⤵️ Модульное ⤵️ Функциональное ⤵️ Интеграционное

📎 Общие проверки ККД: ✅ На нулевые значения ✅ На null ✅ На актуальность ✅ На объем ✅ На выбросы в диапазоне ✅ На отсутствующие значения

📎 Перед тем, как начинать тестирование, нужно понять, что за данные и какие критерии "плохих" данных.

📎 Тестирование выявит только ожидаемые проблемы.

📎 Данные сильно меняются на своём пути, их нужно регулярно проверять.

📎 Обеспечение качества данных в процессе обработки основывается на: 🟢 Свежесть (не то же самое, что актуальность) 🟢 Распределение 🟢 Объём 🟢 Схема 🟢 Происхождение

📎 На дашборды можно выводить общую информацию: ➡️ Соотношение всех данных к неактуальным или ошибочным ➡️ Количество нулевых или отсутствующих значений ➡️ Процент повторяющихся значений ➡️Согласованность данных ➡️ Количество функциональных групп, которые используют эти данные (потребителей)

📎 Основные слои платформы данных: 📊 Приём 📊 Хранение и обработка 📊 Преобразование и моделирование 📊 Аналитика всех видов 📊 Качество данных и наблюдаемость 📊 Обнаружение и управление данными

📎 Данные, проверенные при приёме не обязательно останутся надёжными по мере их продвижения

📎 Основные типы хранения данных, без приоритезации. Ни одно не лучше другого, для разных организаций или на разных этапах могут меняться: 1️⃣ Data Base 2️⃣ Data Lake 3️⃣ Data Warehouse

📎 Преобразование - подготовка для анализа и составления отчетов.

📎 Моделирование - определение ключевых концепций и связей.

📎 Без визуализации данные практически недоступны и их сложно использовать.

📎 Экосистемы становятся больше и сложнее и используют большие объемы неструктурированных и бессхемных данных, каталоги данных могут отказаться неэффективными из-за отсутствия автоматизации и неспособности масштабироваться.

#качестводанных #dataquality #dqf
repost

113

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь