Основы качества данных, глава третья, часть 5/5.
Мысли о проверках данных.
📎 При проверке тест-кейсы пишут с учетом логики работы системы, но она тоже может сломаться
📎 Распространённые проверки: ➡️ Нулевые значения ➡️ Неизвестные значения (NULL) ➡️ Объём ➡️ Факт получения данных и их размер ➡️ Допустимость диапазона данных ➡️ Инварианты
📎 Проверки желательно проводить перед преобразованием и после каждого этапа процесса преобразования, на всех этапах обработки, от приема данных до передачи их дальше
📎 Рекомендуется использовать разные виды проверок: ➡️ Сингулярные (индивидуальные, для конкретной схемы/таблицы/атрибута) ➡️ Модульные (для продукта, схемы, какой-то части данных) ➡️ Общие (шаблонные, которые легко масштабировать): 1️⃣Уникальность 2️⃣Полнота not_null 3️⃣Принадлежность конечному набору данных 4️⃣Ссылочная целостность
📎 Необходимо регулярно актуализировать проверки при изменении/доработке скрипта обработки данных, удалять лишние и добавлять новые
📎 Quality Gate или "автоматический выключатель" - важная штука для качества данных. Если данные не проходят пороговые значения критичных проверок - они не идут дальше по тракту. Стоит использовать только для проверок, ошибки в которых могут привести к серьезным последствиям
📎 Даже при самых жестких проверках могут остаться ошибки в данных.
#качестводанных #dataquality #dqfеще контент в этом сообществе
еще контент в этом соообществе
войдите, чтобы увидеть
и подписаться на интересных профи