В прошлом посте затронула вопросы для оценки данных и шаги для получения показателей качества.

Для оценки данных стоит задаться вопросами: 1️⃣Актуальны ли данные? 2️⃣Полны ли данные? 3️⃣ Соответствуют ли поля ожидаемым диапазонам? 4️⃣Количество не заполненных (NULL/not NULL) полей отвечает вашим ожиданиям? 5️⃣Верна ли схема?

После ответа на эти вопросы можно уже копнуть глубже (это уже от меня): 6️⃣ На что влияют ответы на каждый из них? 7️⃣Что критично? 8️⃣Что можно сделать, чтобы исправить? 9️⃣Ничего ли не сломается после этого исправления? 🔟 Что исправлять следующим?

А что по шагам для получения показателей качества? Нам предлагают следующий порядок действий: 1️⃣Составить список того, что есть - схемы, таблицы, атрибуты. Что это такое в человекочитаемом виде и как оно меняется. 2️⃣Наблюдать за данными, отслеживать актуальность, уникальность, объем, заполненность 3️⃣Составить историю запросов - когда таблица обновляется, когда и как из неё читаются данные, изучить метаданные запросов

Проводя все мероприятия по улучшению и повышению, надо не забывать, к чему мы хоти прийти в итоге - улучшить качество данных, а не показатели.

#dataquality #качестводанных #dqf
repost

143

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь