Основы качества данных, глава третья, часть 4/5. Мысли про обработку и преобразование данных

27.04

Основы качества данных, глава третья, часть 4/5.

Мысли про обработку и преобразование данных.

📎 Пакетная или потоковая обработка - зависит от задач и желаемого результата, у каждого способа свои плюсы и минусы.

📎 Основная разница - в объёме данных, обрабатываемых в каждом пакете и скорости обработки. Качество данных у пакетной обычно выше.

📎 Преобразование данных - неотъемлемая часть работы с данными. Включает в себя: 1️⃣Нормализацию данных. Тут под нормализацией понимается приведение к конечному формату 2️⃣ Работу с разнородными источниками данных, и здесь могут быть свои подводные камни: ➡️ Задержка и рассинхрон данных, особенно при потоковой обработке ➡️ Отсутствие иерархии, вместо "БД+схема+таблица" возможно полотно текста ➡️ Необработанные форматы файлов, например с датчиков ➡️ Необязательные поля ➡️ Гетерогенность данных и необходимость приводить их в структурированную форму 3️⃣Проверку схемы и приведение типов

📎 Изменение схем - основной источник повреждения данных.

📎 Достижение синтаксической и семантической однозначности в данных очень важно! Особенно в рамках одной команды/продукта, на всех этапах работы с данными. Например, поле "dr" можно воспринять как "др." - другое, а можно как "дорогая редакция" - что-то важное. Способ округления чисел, вверх или вниз, имеет значение, а еще стоит учитывать числа с плавающей точкой. Желающие могут погуглить анекдот про возврат товара с надписью "Х" и "П", он наглядно демонстрирует последствия отсутствия договоренности.

📎 Настроить предпроверку можно в приложениях передачи и обработки данных.

📎 Ничего не сломать при ETL/ELТ (особенно в части преобразования) - возможно. Если очень постараться)

171

еще контент в этом сообществе

еще контент в этом соообществе

Data Quality | Качество данных

27.04 войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь

27.04

еще контент в этом сообществе

еще контент в этом соообществе

27.04

войдите, чтобы увидеть

еще контент в этом соообществе

27.04

войдите, чтобы увидеть

в приложении больше возможностей

продолжить можно в приложении