🚀 Запуск данных без скачивания: в 100 раз быстрее

Hugging Face ускорил стриминг датасетов в 100 раз.

Теперь можно обучать модели на датасетах объёмом в несколько терабайт мгновенно, без загрузки на диск. Новый механизм устраняет «шторм запросов» при старте, кэширует файлы между воркерами и ускоряет чтение данных в 2 раза.

Ключевые улучшения: кэш файлов между воркерами DataLoader, оптимизированная логика разрешения данных, предзагрузка Parquet-фрагментов и настраиваемый буферинг. Также используется Xet — система с дедупликацией, которая передаёт повторяющиеся данные только один раз. Для кастомных пайплайнов можно использовать HfFileSystem с torch.DataLoader.

Скорость стриминга сравнялась с чтением с локальных SSD, а задержки перед обучением сократились с 3 часов до нуля.

#huggingface #streaming #datasets #ml #ai #dataengineering

🚀 Запуск данных без скачивания: в 100 раз быстрее
Hugging Face ускорил стриминг датасетов в 100 раз | Сетка — социальная сеть от hh.ru