Основы качества данных, глава третья, часть 4/5.
Мысли про обработку и преобразование данных.
📎 Пакетная или потоковая обработка - зависит от задач и желаемого результата, у каждого способа свои плюсы и минусы.
📎 Основная разница - в объёме данных, обрабатываемых в каждом пакете и скорости обработки. Качество данных у пакетной обычно выше.
📎 Преобразование данных - неотъемлемая часть работы с данными. Включает в себя: 1️⃣Нормализацию данных. Тут под нормализацией понимается приведение к конечному формату 2️⃣ Работу с разнородными источниками данных, и здесь могут быть свои подводные камни: ➡️ Задержка и рассинхрон данных, особенно при потоковой обработке ➡️ Отсутствие иерархии, вместо "БД+схема+таблица" возможно полотно текста ➡️ Необработанные форматы файлов, например с датчиков ➡️ Необязательные поля ➡️ Гетерогенность данных и необходимость приводить их в структурированную форму 3️⃣Проверку схемы и приведение типов
📎 Изменение схем - основной источник повреждения данных.
📎 Достижение синтаксической и семантической однозначности в данных очень важно! Особенно в рамках одной команды/продукта, на всех этапах работы с данными. Например, поле "dr" можно воспринять как "др." - другое, а можно как "дорогая редакция" - что-то важное. Способ округления чисел, вверх или вниз, имеет значение, а еще стоит учитывать числа с плавающей точкой. Желающие могут погуглить анекдот про возврат товара с надписью "Х" и "П", он наглядно демонстрирует последствия отсутствия договоренности.
📎 Настроить предпроверку можно в приложениях передачи и обработки данных.
📎 Ничего не сломать при ETL/ELТ (особенно в части преобразования) - возможно. Если очень постараться)
#качестводанных #dataquality #dqfеще контент в этом сообществе
еще контент в этом соообществе
войдите, чтобы увидеть
и подписаться на интересных профи