Крутой пример типичной задачи для Дата Инженера!
Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.
В чем сложности? 60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).
С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.
Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.
Что уже есть внутри:
- Пример кода для сборки витрин на PySpark
- Пример чтения XML и сохранения в parquet
- Уже готовый датасет в формате parquet
➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark
——- P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка