AI Open Space пишет:

🚀 Вышел Ray Train V2 для распределённого обучения

Ray представил Train V2 — новую версию фреймворка для масштабируемого обучения моделей.

Версия добавляет асинхронные чекпоинты и валидацию, поддержку JAX на TPU и локальный режим отладки. Теперь чекпоинты загружаются параллельно с обучением, не блокируя GPU. Валидация запускается в отдельной задаче Ray, что повышает полезную нагрузку. JaxTrainer обеспечивает отказоустойчивость и оркестрацию на TPU без сложных конфигураций. Локальный режим упрощает отладку: можно запускать код в одном процессе или через torchrun для многопроцессорной симуляции.

Асинхронные операции и улучшенная модульность делают обучение эффективнее и удобнее для разработки.

#ray #distributed_training #machine_learning #ai #jax #tpu

еще контент в этом сообществе