Крутой пример типичной задачи для Дата Инженера!

Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности? 60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри:

  • Пример кода для сборки витрин на PySpark
  • Пример чтения XML и сохранения в parquet
  • Уже готовый датасет в формате parquet

➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark

——- P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка

Крутой пример типичной задачи для Дата Инженера!
Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым | Сетка — социальная сеть от hh.ru