Data Quality | Качество данных
13.03
В прошлом посте затронула вопросы для оценки данных и шаги для получения показателей качества.
Для оценки данных стоит задаться вопросами: 1️⃣Актуальны ли данные? 2️⃣Полны ли данные? 3️⃣ Соответствуют ли поля ожидаемым диапазонам? 4️⃣Количество не заполненных (NULL/not NULL) полей отвечает вашим ожиданиям? 5️⃣Верна ли схема?
После ответа на эти вопросы можно уже копнуть глубже (это уже от меня): 6️⃣ На что влияют ответы на каждый из них? 7️⃣Что критично? 8️⃣Что можно сделать, чтобы исправить? 9️⃣Ничего ли не сломается после этого исправления? 🔟 Что исправлять следующим?
А что по шагам для получения показателей качества? Нам предлагают следующий порядок действий: 1️⃣Составить список того, что есть - схемы, таблицы, атрибуты. Что это такое в человекочитаемом виде и как оно меняется. 2️⃣Наблюдать за данными, отслеживать актуальность, уникальность, объем, заполненность 3️⃣Составить историю запросов - когда таблица обновляется, когда и как из неё читаются данные, изучить метаданные запросов
Проводя все мероприятия по улучшению и повышению, надо не забывать, к чему мы хоти прийти в итоге - улучшить качество данных, а не показатели.
#dataquality #качестводанных #dqfеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
13.03
войдите, чтобы увидеть
и подписаться на интересных профи