Trino и Iceberg теперь есть на Bootcamp!
Сейчас многие смотрят в сторону этого стека, да и в целом переходят на него. Поэтому мы тоже не стоим на месте.
Что уже есть? Трино в режиме 1 координатор и 2 воркера. Также доступен Trino UI. Ну про Iceberg че говорить.. Думаю все и так знают. Короче современный LAKEHOUSE.
По факту сейчас еще додумаем интересные pipeline к этому стеку и в майском потоке точно будет обновление!
Есть даже идея выбора pipeline!
Например можно выбрать стрим LakeHouse Trino + s3 Iceberg + CH
Либо взять ближе к DWH, когда есть Spark - Greenplum (DBT) - CH
Или пойти в сторону Data Lake Spark - S3 - CH
При этом у нас также остается Kafka - Debezium. И вполне вероятно может появиться Flink. Точнее я уже его добавил))
И на каждый pipeline может быть своя логика сбора и обработки данных. На рынке стек в командах так быстро не меняется, поэтому разобравшись и познакомившись со всем этими инструментами будете намного увереннее себя чувствовать.
🔴 Мы уже набираем поток на МАЙ! Записаться и попасть уже в чат можно тут - @bootcampych_bot
Пишите смело, мы по ту сторону бота сидим, если что!
P.S. Примеры пайплайнов чисто формальные.. безусловно, там еще Airflow, Github, где-то PostgreSQL, где-то API, иногда S3 для метаданных может использоваться. Главное, чтобы вы поняли, что это мощнейщая и крутая шутковина!