Data Quality | Качество данных
21.05
Способы проверки данных
Проверять данные можно по-разному.
Самый простой, но и самый затратный и не очень надёжный способ – смотреть глазами. Простой, потому что не требует никакого ПО или специальных навыков. Любой человек может сравнить дату, стоимость, количество строк, объем (например, в накладной 10 кг, а фактически 1 – это будет заметно), названия и другие важные параметры. Другое дело, что это занимает рабочее время, а значит и деньги, плюс человеческие ошибки никто не отменял.
Следующий способ – доверить проверки программе. Если в организации есть разработчик, можно его попросить написать несложные проверки по заданным параметрам, особенно если налажен электронный документооборот. Критерии проверок определяются обычно совместно бизнес-подразделением и разработчиками, с учетом возможностей поставщиков данных.
На рынке предоставлено огромное количество готовых продуктов для проверки качества данных (Data Quality Software), открывается простор для выбора решений. Это и отечественные разработки, например, Platform V SDP DataQuality от Сбера, и IBM InfoSphere Information Server, и OpenRefine (он же Google Refine), и Informatica Data Quality, и Oracle Data Quality, и Microsoft Data Quality Services, и SAP Data Services, и Talend Data Fabric (Qlik), и Ab Initio, и множество других.
Выбор зависит от того, какие задачи нужно решать, бюджета, критичности и особенностей проверяемых данных.
Кстати, нужно понимать, что любые автоматизированные проверки нужно тщательно настраивать, и на это тоже нужно время.
Вы за ручные проверки или доверяете программам?
#сбер #качестводанных #dataquality #kandinskyAlexander Levchenko
· 24.06
Оба способа нужны. В идеале система должна быть ограничена на входе, чтобы пользователи не могли вносить не корректные данные. Но иногда возникают такие кейсы, что отловить их можно только человеческой логикой и оценкой. Также очень помогают витрины качества данных, составленные на основе типовых проверок. Когда данных 100 тыс. Записей и более, руками не возможно проверить все.
ответить
Валерия Донцова
· 20.06
Я смотрю на влияние. Если влияние заметное, то только автоматизация. Ну и объемы выборки. Если в Ексель влезает периодически проще фильтрами.
ответить
еще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
21.05
войдите, чтобы увидеть
и подписаться на интересных профи