Data Quality | Качество данных
27.05
Основы качества данных, глава пятая, часть 1/2.
Мысли об архитектуре для обеспечения надёжности данных.
📎 Большие корпорации уже больше 5 лет говорят о том, что качественные данные лежат в их основе.
📎 Надёжность данных является результатом высокого качества данных. Это способность обеспечить доступность и работоспособность данных.
📎 Её нужно целенаправленно встраивать на все уровни.
📎 Качество принимаемых решений зависит от данных.
📎 Обнаружение проблем с данными в момент их приёма может свести к минимуму большие проблемы в дальнейшем.
📎 Обогащение данных может повысить их ценность, сделать более полезными и надёжными.
📎 Основные типы тестирования качества данных: ⤵️ Модульное ⤵️ Функциональное ⤵️ Интеграционное
📎 Общие проверки ККД: ✅ На нулевые значения ✅ На null ✅ На актуальность ✅ На объем ✅ На выбросы в диапазоне ✅ На отсутствующие значения
📎 Перед тем, как начинать тестирование, нужно понять, что за данные и какие критерии "плохих" данных.
📎 Тестирование выявит только ожидаемые проблемы.
📎 Данные сильно меняются на своём пути, их нужно регулярно проверять.
📎 Обеспечение качества данных в процессе обработки основывается на: 🟢 Свежесть (не то же самое, что актуальность) 🟢 Распределение 🟢 Объём 🟢 Схема 🟢 Происхождение
📎 На дашборды можно выводить общую информацию: ➡️ Соотношение всех данных к неактуальным или ошибочным ➡️ Количество нулевых или отсутствующих значений ➡️ Процент повторяющихся значений ➡️Согласованность данных ➡️ Количество функциональных групп, которые используют эти данные (потребителей)
📎 Основные слои платформы данных: 📊 Приём 📊 Хранение и обработка 📊 Преобразование и моделирование 📊 Аналитика всех видов 📊 Качество данных и наблюдаемость 📊 Обнаружение и управление данными
📎 Данные, проверенные при приёме не обязательно останутся надёжными по мере их продвижения
📎 Основные типы хранения данных, без приоритезации. Ни одно не лучше другого, для разных организаций или на разных этапах могут меняться: 1️⃣ Data Base 2️⃣ Data Lake 3️⃣ Data Warehouse
📎 Преобразование - подготовка для анализа и составления отчетов.
📎 Моделирование - определение ключевых концепций и связей.
📎 Без визуализации данные практически недоступны и их сложно использовать.
📎 Экосистемы становятся больше и сложнее и используют большие объемы неструктурированных и бессхемных данных, каталоги данных могут отказаться неэффективными из-за отсутствия автоматизации и неспособности масштабироваться.
#качестводанных #dataquality #dqfеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
27.05
войдите, чтобы увидеть
и подписаться на интересных профи