На что проверять данные?

Один из основных вопросов, который появляется, когда принято решение о необходимости проверки данных – на что их проверять?

Для начала, рекомендуется провести профилирование имеющихся данных – узнать, какие данные есть, из каких источников поступают, как часто обновляются. Закрыты ли этими данными все требования, или их не хватает. После профилирования становится понятно, где есть «просадки», «выбросы», на что нужно обратить особое внимание.

Обычно, начинают с проверок на дубликаты, на аномальные выбросы, на полноту данных, их целостность, точность, актуальность, уникальность и достоверность. Затем добавляют уже точечно, нужные именно вашему процессу проверки – на объем, своевременность, доступность, согласованность и другие.

Список проверок может быть огромным, и какие именно данные и на что именно проверять – зависит от процессов, в которых эти данные используются и как часто обновляются, а еще от того, где, как и кем проверяются до вас.

Как думаете, есть ли важные и не важные проверки? Если да, то какие важны, а какие – не очень?

Пост от Павла Архипова. От имени сообщества может публиковать только владелец, поэтому так) Картинку генерил Кандинский

#сбер #качестводанных #dataquality
На что проверять данные?
Один из основных вопросов, который появляется, когда принято решение о необходимости проверки данных – на что их проверять?
Для начала, рекомендуется провести профилирование и... | Сетка — новая социальная сеть от hh.ru
repost

249

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь