🔹 Метрики качества данных: что отслеживать в пайплайне 🔹 Зачем мерять метрики качества данных? 🔸 accuracy — показывает, насколько значения в таблице соответствуют реальности или эталону; без неё отчёты и модели дают смещённые выводы, поэтому отслеживают разницу с reference-данными и ставят пороги для отклонений.
🔸 completeness — измеряет долю отсутствующих значений; пропуски ломают агрегации и ML; простая метрика — процент non-null.
SELECT SUM(CASE WHEN col IS NULL THEN 1 ELSE 0 END) AS nulls, COUNT() AS total, SUM(CASE WHEN col IS NULL THEN 1 ELSE 0 END)::float/COUNT() AS null_rate FROM my_table;
🔸 timeliness — оценивает свежесть данных (latency); задержка приводит к устаревшим решениям; ставьте SLA по максимальному timestamp и alert при просрочке.
🔸 validity — проверяет соответствие схемы и правил (формат, диапазоны); без валидации пайплайн может падать или дать мусорные значения.
📚 Отслеживайте все 4 метрики: выбирайте пороги, автоматизируйте проверки и алерты.
➡️ Мы в Telegram - Сетке - Дзен Буду рад вашей реакции здесь⬇️
В этом посте были ссылки, но мы их удалили по правилам Сетки