Управление метаданными

Меня иногда спрашивают: нужен ли компании Data Catalog. Причем спрашивают компании от 3 000 тысяч человек и даже с 14 000 человек в компании. Меня это просто вгоняет в уныние: все говорят о data driven, о данных как активе, но компании без каталога даже не знают какие данные у них есть

Я внедрил не один каталог в компаниях разного размера. Это был и Alation, и Metadata и Data Hub и Arena Data Catalog. В не зависимости от итогового результата, эффект от внедрения реально окупает все затраты и дает огромные перспективы для дальнейшего развития всей повестки управления данными. Я об этом рассказывал на конференции по качеству данных в 2025 году: то же качество можно построить на каталоге. Не говоря уже про Data Governance (про это отдельно напишу)

Приведу несколько практических примеров

Есть пример управления на основе метаданных цветочной биржи в Голландии. На основе метаданных выстроена вся цепочка управления. Данные о цветке разбросаны: * RFID-метка на тележке - Физический слой. * База данных поставщика с сортом и ценой - Операционный слой. * Информация о прохождении через ворота аукциона - Логистический слой. * Конфиденциальность данных: публичные, непубличные, конфиденциальные. И через управление всеми этими параметрами позволяет управлять логистическими складами размером с 100 футбольных полей

Следующий пример из моей практики. Нужно было поменять одну систему на другую. Задача помимо чисто IT составляющей ещё влияет на данные. Что мы сделали: у нас уже было описание и происхождение по старой системе. Мы развернули тестовый стенд с новой системой, подключили сканирование меты. Вытащили всю физическую модель, получили описание, сопоставили с той моделью, что была у нас. Нашли те моменты, которые есть в новой системе и нет в старой и наоборот. Это упражнение было полностью механическим, заняло пару дней и сократило архитектурные и аналитические работы где то на месяц человека часов. Ну и если переводить в стоимость работ вендора нового решения это была сумма с 6 нулями.

Про само внедрение я бы поговорил отдельно. Скажу только, что внедрение непростое и имеет множество подводных камней. Единственно укажу на следующее: * Обязательно нужна метамодель. Без неё сложно что-то объяснить когда участвует больше одной команды. * Не нужно каталогом покрывать и бизнес потребности и потребности технических команд. Лучше пойти в историю когда есть каталог данных и над ним надстройка из фронтэнда для бизнес пользователей. * Не придумывайте новые процессы для управления метаданными - меняйте существующие. * Быстрая победа - это бизнес-глоссарий. Информация по терминам как правило уже есть в отделах: её легко найти. Нужно загрузить в каталог и сообщить об этом всей компании.

Итого: отвечая на вопрос про каталог я даже не дослушиваю вопрос до конца: если у вас более одной команды связанной с данными и информационными технологиями - каталог однозначно нужен.

Управление метаданными | Сетка — социальная сеть от hh.ru