🔹 Метрики качества данных: что отслеживать в пайплайне 🔹 Зачем мерять метрики качества данных? 🔸 accuracy — показывает, насколько значения в таблице соответствуют реальности или эталону; без неё отчёты и модели дают смещённые выводы, поэтому отслеживают разницу с reference-данными и ставят пороги для отклонений.

🔸 completeness — измеряет долю отсутствующих значений; пропуски ломают агрегации и ML; простая метрика — процент non-null.

SELECT SUM(CASE WHEN col IS NULL THEN 1 ELSE 0 END) AS nulls, COUNT() AS total, SUM(CASE WHEN col IS NULL THEN 1 ELSE 0 END)::float/COUNT() AS null_rate FROM my_table;

🔸 timeliness — оценивает свежесть данных (latency); задержка приводит к устаревшим решениям; ставьте SLA по максимальному timestamp и alert при просрочке.

🔸 validity — проверяет соответствие схемы и правил (формат, диапазоны); без валидации пайплайн может падать или дать мусорные значения.

📚 Отслеживайте все 4 метрики: выбирайте пороги, автоматизируйте проверки и алерты.

#CODERIKK #De #Middle

➡️ Мы в Telegram - Сетке - Дзен Буду рад вашей реакции здесь⬇️


В этом посте были ссылки, но мы их удалили по правилам Сетки

🔹 Метрики качества данных: что отслеживать в пайплайне
🔹 Зачем мерять метрики качества данных?
🔸 accuracy — показывает, насколько значения в таблице соответствуют реальности или эталону; без неё отчёт... | Сетка — социальная сеть от hh.ru