Data Quality | Качество данных
06.07 · ред.
Как измерить качество данных?
Рубрика #DQответынавопросы
Сегодня поговорим о метриках качества данных.
Считается, что качество данных влияет на все данные в организации и поэтому оно должно начинаться с самого верха организации. Одновременно с этим, за качество данных отвечает каждый пользователь, создающий и использующий данные. Создатели должны придерживаться ряда правил и договоренностей, а потребители – сообщать о несоответствиях данных.
Зачастую, на некоторые моменты «закрывают глаза». Например, на дату 01.01.1900 или 31.12.9999. Эти даты удобны, они были в далёком прошлом или будут в еще более далёком будущем, именно в этом интервале их нормально воспринимает эксель. Ими же заполняют пропуски или недостающие данные, условно подходящие под «давно» и «никогда». И именно о них спотыкаются проверки на актуальность, ведь в идеале этих дат нет в таблице. Приходится придумывать обходные пути, помечать записи как неошибочные и тд.
Неисправленные ошибки в адресах, названиях, разное написание телефонных номеров – всё это может создать ложные срабатывания различных проверок и привести к падению уровня качества данных.
Определить, насколько хороши ваши данные можете только вы сами, приняв за точку отсчета текущее состояние данных. Проверить, какие там есть ошибки, как их можно исправить, а что не является критичным и существенным.
Обычно, основными метриками считают следующие: ✅ Полнота – количество или процент заполненных значений; ✅ Уникальность – процент неповторяющихся значений; ✅ Согласованность – взаимная непротиворечивость; ✅ Допустимость – соответствие типам или форматам (например, телефонный номер записан цифрами); ✅ Валидность – соответствие уровню достоверности (например, неотрицательный вес); ✅ Точность – соответствие требованиям; ✅ Контролируемость – возможность установить происхождение данных и другие.
Какой процент соответствия этим критериям допустим – определяется на уровне организации, отдела, продукта. Где-то обязательно 99,99%, а где-то и 80% - уже хорошо. Например, обычно вы приходите на работу к 9.00, и это нормально, но именно работать начинаете в 9.15 - 15 минут на переодевание, загрузку компьютера и чай, а когда приходите в организацию, которая работает с 9, хочется чтобы в 9 вас и начали принимать. В этом случае сотрудникам нужно приходить чуть раньше, чем 9, например, 8.45. В итоге оба работают с 9, но с разными допусками к такому критерию как начало рабочего дня.
#качестводанных #dataqualityРаз в месяц публикую пост-вопрос где тоже можно задать вопросы о качестве данных, помимо комментариев.
Алексей Проскурин
· 13.07
Какие дашборды по качеству вы делали? Как оформляли метрики? Поделитесь методологией работы с данными, где установленные метрики ниже некуда.
ответить
Data Quality | Качество данных
14.07
Имеете ввиду, что всё не очень хорошо с качеством? Или наоборот, большие допуски и всё всегда хорошо?
ответить
еще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
06.07 · ред.
войдите, чтобы увидеть
и подписаться на интересных профи