🚀 Вышел Ray Train V2 для распределённого обучения
Ray представил Train V2 — новую версию фреймворка для масштабируемого обучения моделей.
Версия добавляет асинхронные чекпоинты и валидацию, поддержку JAX на TPU и локальный режим отладки. Теперь чекпоинты загружаются параллельно с обучением, не блокируя GPU. Валидация запускается в отдельной задаче Ray, что повышает полезную нагрузку. JaxTrainer обеспечивает отказоустойчивость и оркестрацию на TPU без сложных конфигураций. Локальный режим упрощает отладку: можно запускать код в одном процессе или через torchrun для многопроцессорной симуляции.
Асинхронные операции и улучшенная модульность делают обучение эффективнее и удобнее для разработки.