Data Quality | Качество данных
01.06
Проверка на актуальность данных
Следующая проверка, которую обычно тоже подключают в числе первых – проверка на актуальность.
И тут сначала нужно понять, что именно для ваших данных – актуально, как часто их нужно проверять и какие возможны допуски.
Какие-то данные обновляются раз в год, какие-то – раз в месяц, какие-то каждый день. Например, данные об инфляции Росстат публикует раз в месяц за прошлый месяц, и их нет смысла проверять каждый день, а котировки валют Центральный Банк обновляет ежедневно. Ключевая ставка может меняться в любой день, без четкого графика, а данные о погоде обновляют много раз в день. Данные о билетах обновляются после каждой транзакции, а критичные системы мониторят несколько раз в минуту.
Следующий вопрос – как быстро вы получаете эти данные, сразу из источника или есть какие-то поставщики данных, посредники, третьи лица. Может быть, вы строите свои витрины на обработанных данных коллег, тогда ваша актуальность будет совсем не молниеносной, а спустя несколько дней, и это тоже нормально 😊
Актуальность есть смысл проверять далеко не во всех таблицах. Например, статичные справочники, таблицы с некритичными данными, технические таблицы.
После этого следует этап, на самом деле важный для многих проверок - определиться, по какому атрибуту проверять. Есть ли в вашей таблице поле, содержащее дату? Какой у этого поля формат? Вполне может оказаться, что проще и надёжнее проверять по техническому полю "дата загрузки".
А может быть и такое, что вам вообще не нужно проверять на актуальность. Может, используются только справочники, которые меняются крайне редко и нет таблиц с регулярным обновлением.
Поделитесь мнением о проверках на актуальность?
#качестводанных #dataquality #kandinskyеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
01.06
войдите, чтобы увидеть
и подписаться на интересных профи