Крутой пример типичной задачи для Дата Инженера! Есть два стула датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым

Крутой пример типичной задачи для Дата Инженера!

Есть два ~~стула~~ датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым.

В чем сложности? 60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер).

С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик.

Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных.

Что уже есть внутри: