Как измерить качество данных?

Рубрика #DQответынавопросы

Сегодня поговорим о метриках качества данных.

Считается, что качество данных влияет на все данные в организации и поэтому оно должно начинаться с самого верха организации. Одновременно с этим, за качество данных отвечает каждый пользователь, создающий и использующий данные. Создатели должны придерживаться ряда правил и договоренностей, а потребители – сообщать о несоответствиях данных.

Зачастую, на некоторые моменты «закрывают глаза». Например, на дату 01.01.1900 или 31.12.9999. Эти даты удобны, они были в далёком прошлом или будут в еще более далёком будущем, именно в этом интервале их нормально воспринимает эксель. Ими же заполняют пропуски или недостающие данные, условно подходящие под «давно» и «никогда». И именно о них спотыкаются проверки на актуальность, ведь в идеале этих дат нет в таблице. Приходится придумывать обходные пути, помечать записи как неошибочные и тд.

Неисправленные ошибки в адресах, названиях, разное написание телефонных номеров – всё это может создать ложные срабатывания различных проверок и привести к падению уровня качества данных.

Определить, насколько хороши ваши данные можете только вы сами, приняв за точку отсчета текущее состояние данных. Проверить, какие там есть ошибки, как их можно исправить, а что не является критичным и существенным.

Обычно, основными метриками считают следующие: ✅ Полнота – количество или процент заполненных значений; ✅ Уникальность – процент неповторяющихся значений; ✅ Согласованность – взаимная непротиворечивость; ✅ Допустимость – соответствие типам или форматам (например, телефонный номер записан цифрами); ✅ Валидность – соответствие уровню достоверности (например, неотрицательный вес); ✅ Точность – соответствие требованиям; ✅ Контролируемость – возможность установить происхождение данных и другие.

Какой процент соответствия этим критериям допустим – определяется на уровне организации, отдела, продукта. Где-то обязательно 99,99%, а где-то и 80% - уже хорошо. Например, обычно вы приходите на работу к 9.00, и это нормально, но именно работать начинаете в 9.15 - 15 минут на переодевание, загрузку компьютера и чай, а когда приходите в организацию, которая работает с 9, хочется чтобы в 9 вас и начали принимать. В этом случае сотрудникам нужно приходить чуть раньше, чем 9, например, 8.45. В итоге оба работают с 9, но с разными допусками к такому критерию как начало рабочего дня.

#качестводанных #dataquality

Раз в месяц публикую пост-вопрос где тоже можно задать вопросы о качестве данных, помимо комментариев.

Как измерить качество данных? | Сетка — новая социальная сеть от hh.ru
repost

349

input message

напишите коммент

· 13.07

Какие дашборды по качеству вы делали? Как оформляли метрики? Поделитесь методологией работы с данными, где установленные метрики ниже некуда.

ответить

14.07

Имеете ввиду, что всё не очень хорошо с качеством? Или наоборот, большие допуски и всё всегда хорошо?

ответить

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь