Способы проверки данных
Проверять данные можно по-разному.
Самый простой, но и самый затратный и не очень надёжный способ – смотреть глазами. Простой, потому что не требует никакого ПО или специальных навыков. Любой человек может сравнить дату, стоимость, количество строк, объем (например, в накладной 10 кг, а фактически 1 – это будет заметно), названия и другие важные параметры. Другое дело, что это занимает рабочее время, а значит и деньги, плюс человеческие ошибки никто не отменял.
Следующий способ – доверить проверки программе. Если в организации есть разработчик, можно его попросить написать несложные проверки по заданным параметрам, особенно если налажен электронный документооборот. Критерии проверок определяются обычно совместно бизнес-подразделением и разработчиками, с учетом возможностей поставщиков данных.
На рынке предоставлено огромное количество готовых продуктов для проверки качества данных (Data Quality Software), открывается простор для выбора решений. Это и отечественные разработки, например, Platform V SDP DataQuality от Сбера, и IBM InfoSphere Information Server, и OpenRefine (он же Google Refine), и Informatica Data Quality, и Oracle Data Quality, и Microsoft Data Quality Services, и SAP Data Services, и Talend Data Fabric (Qlik), и Ab Initio, и множество других.
Выбор зависит от того, какие задачи нужно решать, бюджета, критичности и особенностей проверяемых данных.
Кстати, нужно понимать, что любые автоматизированные проверки нужно тщательно настраивать, и на это тоже нужно время.
Вы за ручные проверки или доверяете программам?
#сбер #качестводанных #dataquality #kandinsky
· 24.06
Оба способа нужны. В идеале система должна быть ограничена на входе, чтобы пользователи не могли вносить не корректные данные. Но иногда возникают такие кейсы, что отловить их можно только человеческой логикой и оценкой. Также очень помогают витрины качества данных, составленные на основе типовых проверок. Когда данных 100 тыс. Записей и более, руками не возможно проверить все.
ответить
· 20.06
Я смотрю на влияние. Если влияние заметное, то только автоматизация. Ну и объемы выборки. Если в Ексель влезает периодически проще фильтрами.
ответить
· 20.06
Да, иногда проще в Экселе фильтры поставить, чем условия отбора в скрипт обернуть, это точно!
ответить
· 27.05
Если надо регулярно проверять что-то однотипное, то конечно автоматизация. Если проще и быстрее аналогово то глазами.
Я сейчас проверяю выгрузку товаров с интернет магазина. Около 300 товаров, очень схожи, но задача разовая, поэтому сам. А вот дальше надо описание товаров в HTML сверстать, там уже ChatGpt пойдёт
ответить
· 29.05
Соглашусь. Ещё может пригодиться перед автоматизацией понаблюдать за данными, чтобы понять где просадка, как часто и что именно обновляется, какой характер обновлений и тд
ответить
еще контент в этом сообществе
еще контент в этом соообществе
войдите, чтобы увидеть
и подписаться на интересных профи