Data Quality | Качество данных
18.05
На что проверять данные?
Один из основных вопросов, который появляется, когда принято решение о необходимости проверки данных – на что их проверять?
Для начала, рекомендуется провести профилирование имеющихся данных – узнать, какие данные есть, из каких источников поступают, как часто обновляются. Закрыты ли этими данными все требования, или их не хватает. После профилирования становится понятно, где есть «просадки», «выбросы», на что нужно обратить особое внимание.
Обычно, начинают с проверок на дубликаты, на аномальные выбросы, на полноту данных, их целостность, точность, актуальность, уникальность и достоверность. Затем добавляют уже точечно, нужные именно вашему процессу проверки – на объем, своевременность, доступность, согласованность и другие.
Список проверок может быть огромным, и какие именно данные и на что именно проверять – зависит от процессов, в которых эти данные используются и как часто обновляются, а еще от того, где, как и кем проверяются до вас.
Как думаете, есть ли важные и не важные проверки? Если да, то какие важны, а какие – не очень?
Пост от Павла Архипова. От имени сообщества может публиковать только владелец, поэтому так) Картинку генерил Кандинский
#сбер #качестводанных #dataqualityеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
18.05
войдите, чтобы увидеть
и подписаться на интересных профи