🚀 Запуск данных без скачивания: в 100 раз быстрее
Hugging Face ускорил стриминг датасетов в 100 раз.
Теперь можно обучать модели на датасетах объёмом в несколько терабайт мгновенно, без загрузки на диск. Новый механизм устраняет «шторм запросов» при старте, кэширует файлы между воркерами и ускоряет чтение данных в 2 раза.
Ключевые улучшения: кэш файлов между воркерами DataLoader, оптимизированная логика разрешения данных, предзагрузка Parquet-фрагментов и настраиваемый буферинг. Также используется Xet — система с дедупликацией, которая передаёт повторяющиеся данные только один раз. Для кастомных пайплайнов можно использовать HfFileSystem с torch.DataLoader.
Скорость стриминга сравнялась с чтением с локальных SSD, а задержки перед обучением сократились с 3 часов до нуля.