Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк.

Интересное из первой главы:

📎 Основные показатели качества данных: актуальность, объем, источники, схема и распределение. Читаю со словарём, и последние два пункта пока не очень понятны. Если есть идеи, что может под этим подразумевается, поделитесь соображениями?

📎 Любые проблемы с данными в книге называются "простоями", что в общем-то логично.

📎 Про определение качества данных: измерение надёжности, полноты и точности данных, в зависимости от состояния того, о чём речь; работоспособность данных на любом этапе жизненного цикла.

📎 Проблемы с качеством данных неизбежны в современном мире.

📎 Данные становятся не результатом, а финансовым товаром.

📎 "Сломаться" данные могут на любом этапе: приём, преобразование, загрузка, сохранение, обработка, доставка, интеграции и другие манипуляции с ними.

📎 Любое изменение данных может привести к поломке.

📎 Про децентрализованную и ячеистую архитектуры данных, сетку данных. Кажется, наш (Сберовской) "Супермаркет данных" и есть сетка.

📎 Использование одновременно и потоковой, и пакетной обработки данных меняют подходы к исследованиям.

📎 Всё большую популярность приобретает использование лучшего от хранилищ данных и от озёр данных. На выходе получаем DWH.

❄️ Приводится интересный пример плохих данных: исследователи и первооткрыватели из-за данных низкого качества или полного их отсутствия неточно прогнозировали время в пути и ресурсы.

🎼 Высокое качество данных - это не только техническая задача, но и уровень культуры.

#dataquality #качестводанных #dqf
Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк | Сетка — новая социальная сеть от hh.ru Начала читать "Основы качества данных", авторы: Барр Мозес, Диор Гавиш, Молли Форверк | Сетка — новая социальная сеть от hh.ru
repost

154

input message

напишите коммент

· 05.03

Как давно вы сталкивались с выгрузками типа биг даты?

И как давно вы строили на их основе сводные таблицы?

Если взять любую компанию, то мы найдем несколько подобных выгрузок. И зададимся вопросом: как все эти таблицы связать?

Как правило это некий айди (Лида, сделки, клиента, компании и тд).

После дружбы разных таблиц мы начинаем понимать схему получения данных.

Дружба таблиц как правило происходит в некой базе данных и после всего этого эти данные каким-то образом распределяются по разным визуализаторам данных например.

ответить

05.03

Спасибо! Когда переводишь со словарём, немного отвлекаешься от сути.

ответить

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь