Data Quality | Качество данных
03.03
Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк.
Интересное из первой главы:
📎 Основные показатели качества данных: актуальность, объем, источники, схема и распределение. Читаю со словарём, и последние два пункта пока не очень понятны. Если есть идеи, что может под этим подразумевается, поделитесь соображениями?
📎 Любые проблемы с данными в книге называются "простоями", что в общем-то логично.
📎 Про определение качества данных: измерение надёжности, полноты и точности данных, в зависимости от состояния того, о чём речь; работоспособность данных на любом этапе жизненного цикла.
📎 Проблемы с качеством данных неизбежны в современном мире.
📎 Данные становятся не результатом, а финансовым товаром.
📎 "Сломаться" данные могут на любом этапе: приём, преобразование, загрузка, сохранение, обработка, доставка, интеграции и другие манипуляции с ними.
📎 Любое изменение данных может привести к поломке.
📎 Про децентрализованную и ячеистую архитектуры данных, сетку данных. Кажется, наш (Сберовской) "Супермаркет данных" и есть сетка.
📎 Использование одновременно и потоковой, и пакетной обработки данных меняют подходы к исследованиям.
📎 Всё большую популярность приобретает использование лучшего от хранилищ данных и от озёр данных. На выходе получаем DWH.
❄️ Приводится интересный пример плохих данных: исследователи и первооткрыватели из-за данных низкого качества или полного их отсутствия неточно прогнозировали время в пути и ресурсы.
🎼 Высокое качество данных - это не только техническая задача, но и уровень культуры.
#dataquality #качестводанных #dqfФилипп Горбунов
· 05.03
Как давно вы сталкивались с выгрузками типа биг даты?
И как давно вы строили на их основе сводные таблицы?
Если взять любую компанию, то мы найдем несколько подобных выгрузок. И зададимся вопросом: как все эти таблицы связать?
Как правило это некий айди (Лида, сделки, клиента, компании и тд).
После дружбы разных таблиц мы начинаем понимать схему получения данных.
Дружба таблиц как правило происходит в некой базе данных и после всего этого эти данные каким-то образом распределяются по разным визуализаторам данных например.
ответить
Data Quality | Качество данных
05.03
Спасибо! Когда переводишь со словарём, немного отвлекаешься от сути.
ответить
еще контент в этом сообществе
еще контент в этом соообществе
Data Quality | Качество данных
03.03
войдите, чтобы увидеть
и подписаться на интересных профи