Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк.

Интересное из первой главы:

📎 Основные показатели качества данных: актуальность, объем, источники, схема и распределение. Читаю со словарём, и последние два пункта пока не очень понятны. Если есть идеи, что может под этим подразумевается, поделитесь соображениями?

📎 Любые проблемы с данными в книге называются "простоями", что в общем-то логично.

📎 Про определение качества данных: измерение надёжности, полноты и точности данных, в зависимости от состояния того, о чём речь; работоспособность данных на любом этапе жизненного цикла.

📎 Проблемы с качеством данных неизбежны в современном мире.

📎 Данные становятся не результатом, а финансовым товаром.

📎 "Сломаться" данные могут на любом этапе: приём, преобразование, загрузка, сохранение, обработка, доставка, интеграции и другие манипуляции с ними.

📎 Любое изменение данных может привести к поломке.

📎 Про децентрализованную и ячеистую архитектуры данных, сетку данных. Кажется, наш (Сберовской) "Супермаркет данных" и есть сетка.

📎 Использование одновременно и потоковой, и пакетной обработки данных меняют подходы к исследованиям.

📎 Всё большую популярность приобретает использование лучшего от хранилищ данных и от озёр данных. На выходе получаем DWH.

❄️ Приводится интересный пример плохих данных: исследователи и первооткрыватели из-за данных низкого качества или полного их отсутствия неточно прогнозировали время в пути и ресурсы.

🎼 Высокое качество данных - это не только техническая задача, но и уровень культуры.

#dataquality #качестводанных #dqf

Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк | Сетка — социальная сеть от hh.ru