Основы качества данных, глава четвертая, часть 2/2.
Мысли о мониторинге и обнаружении аномалий в данных.
📎 Аномалии можно описывать кратко и полно, и это будет влиять на скорость устранения. Полное и подробное описание может ускорить решение проблемы.
📎 Основные столпы наблюдения за данными (они же - следующие пункты для поиска аномалий): 4️⃣Схема данных и её изменения. 5️⃣Граф зависимостей данных, их происхождение и путь.
📎 Эвристика, (а на деле - глубокое погружение в процессы и данные), ускоряют поиск аномалий и их устранение.
📎 Гарантировать, что все проблемы, выявленные мониторингом, подлинные - невозможно.
📎 Рекомендуется найти компромисс при настройке мониторингов, чтобы максимизировать истинно положительные и истинно отрицательные результаты и сократить ложные.
📎 Для поиска золотой середины и параметров настройки можно использовать метрики точности моделей для машинного обучения (насколько часто предупреждения верны).
📎 Ложноположительный результат лучше, чем ложноотрицательный (согласны?)
📎 Параметр точности не может быть одинаковым для разных данных.
📎 Лучшие алгоритмы обнаружения аномалий делают три вещи: 1️⃣обнаруживают проблемы как можно раньше 2️⃣сообщают о них тем, кому нужно знать 3️⃣предоставляют информацию, которая поможет сократить простои данных
📎 Лучшие практики мониторингов: ➡️ Определение правил и порогов ➡️Использование авторегрессии (проверка прошлых периодов для прогноза будущих и сравнение реального с прошлым) ➡️ Использование экспоненциального сглаживания
📎 Основные различия между алгоритмом поиска аномалий для DWH и Data Lake 1️⃣Количество точек входа 2️⃣Сбор и хранение метаданных 3️⃣Доступ к метаданным
📎 Должна быть точка оборы - какая-либо базовая истина.