Начнём обзор платформы данных с компонента DataLakeHouse (DLH). Это платформа с разделёнными хранилищем (Storage) и вычислительной частью (Compute). Данные хранятся в S3 (Ceph), а вычисления выполняются в Apache Spark и Trino. Spark обеспечивает обработку тяжёлых ETL- и batch-нагрузок, Trino — быстрые интерактивные и ad hoc-запросы; при этом оба движка работают с одними и теми же данными. Данные из источников напрямую загружаются в S3 с помощью Ingest-платформы (SDP и Chrono) через внутренний компонент S3Sink.

У нас есть несколько ключевых требований, которые мы хотим реализовать с помощью архитектуры DLH.

Во-первых, горизонтальная масштабируемость. В случае с Greenplum мы достигли предела вертикальной масштабируемости одного кластера и вынуждены были строить отдельные кластеры под разные задачи. На текущий момент у нас есть два кластера Greenplum для расчёта ежедневного ETL и более десяти — для выполнения пользовательских запросов. Все они объединены в единую экосистему. В результате получилась сложная система с большим количеством точек отказа. Кроме того, у неё есть верхний предел масштабирования по числу кластеров — из-за необходимости быстро переносить большие объёмы данных между ними мы упираемся в производительность транспорта данных.

Во-вторых, возможность работать с действительно большими объёмами данных. Например, аналитические события, поступающие от мобильного приложения Т-банка, уже занимают 500 терабайт и продолжают расти.

В-третьих, возможность использовать неспециализированное «железо». Ещё лучше — использовать внутренние платформы k8saaS и S3aaS для развёртывания вычислительных движков и хранения данных соответственно.

На текущий момент DLH развёрнут в продакшене. На него переведено более половины поставок данных из источников, около 20 % ETL-задач, а количество активных пользователей превысило 2,5 тысячи. #overview #DLH

Начнём обзор платформы данных с компонента DataLakeHouse (DLH). Это платформа с разделёнными хранилищем (Storage) и вычислительной частью (Compute) | Сетка — социальная сеть от hh.ru