Data Quality | Качество данных
19.07
Проверки на точность и достоверность
Зачастую считают, что качество данных равно их точность. Но это не совсем так.
Точность — это то, насколько хорошо данные, хранящиеся в системе, отражают действительность. Под достоверностью обычно понимают достоверный источник данных и возможность их проверить. Фактчекинг появился именно по этой причине – проверить вызывающие сомнение факты (данные).
Данные должны не только отражать реальность, но и быть полными, действительными и единообразными. В первую очередь точность означает полноту данных, то есть должны быть известны все атрибуты, и подразумевает баланс между всеми аспектами.. Чтобы данные были действительными, они должны соответствовать какому-то стандарту. Например, у всех есть фамилия и имя, а у большинства сограждан – еще и отчество. Данные могут быть действительными, но не точными. Например, если на письме в графе «ФИО получателя» написано «Петровичу», то данные могут быть действительными (потому что фамилия Петрович тоже есть), но не проходят проверку на точность, в совокупности с другими атрибутами, так как являются отчеством. Единообразие означает, что одни и те же данные отображаются одинаково в разных наборах данных. Например, если в одном указано «Даниил Григориевич», а в другом этот же человек – «Данила Григорьевич», то данные противоречивы и по крайней мере один из наборов неточен. Точность данных означает выполнение всех вышеперечисленных требований.
Например, если данные точные, но поступили позже ожидаемого времени, или недостаточно детализированы, или недоступны заинтересованным лицам – их качество не будет высоким, потому что цель использования не достигнута.
#качестводанных #dataqualityеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
19.07
войдите, чтобы увидеть
и подписаться на интересных профи