Data Quality | Качество данных
05.05
Основы качества данных, глава четвертая, часть 1/2.
Мысли о мониторинге и обнаружении аномалий в данных.
📎 Аномалии в данных могут появиться из-за причин, не связанных с самими данными (🔥 если такое было)
📎 Чаще всего аномалии выявляются с помощью простых проверок.
📎 Раньше проверка данных считалась полезной, но не обязательной. Сейчас данных больше, их ценность и значимость выше и управление данными, качество данных - уже неотъемлемый атрибут работы с данными.
📎 Можно выделить два основных типа проблем с данными: 1️⃣Известные неизвестные (можно предсказать или предположить, что может пойти не так, большинство можно поймать проверками) 2️⃣Неизвестные неизвестные (как суслик - его никто не видит, а он есть. Например, изменение схемы другой командой, изменение кода, изменение историчных данных, если на это нет отдельных проверок)
📎 Если есть понимание, какие данные считать "хорошими", легче найти "плохие".
📎 Алгоритм обнаружения аномалий: 1️⃣Мониторинг актуальности. Когда данные были обновлены последний раз? Какой период времени приемлем после последнего обновления? 2️⃣Понимание распределения. Какими должны быть ваши данные? Сколько их? Каждый день по 100 строк с похожими цифрами? От чего может завистеть? Есть ли "сезонность" (от времени суток, дня недели, времени года, места)? Предсказуемые колебания? Тут речь про нормальное распределение (распределение Гаусса) и Центральную предельную теорему — сумма большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы, имеет распределение, близкое к нормальному. Готовь сани летом, а покупай зимой, чтобы не сломать магазинам проверки :) 3️⃣Контекст. Какие ранее осуществлённые манипуляции могут быть причиной? Что может быть затронуто еще? На что влияют эти аномалии?
📎 Когда есть ключевой показатель, можно оценить его состояние разными способами. Например, среднее значение, количество нулей или пустых значений.
#качестводанных #dataquality #dqfеще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
05.05
войдите, чтобы увидеть
и подписаться на интересных профи