🚀 Ray ускорил обучение multimodal AI на 30%

Разработчики из Anyscale представили disaggregated hybrid parallelism для эффективного обучения multimodal-моделей на основе Ray.

Подход комбинирует разные стратегии параллелизма для разных модулей: sequence parallelism для vision-энкодера и tensor parallelism для LLM. Это снижает нагрузку на сеть, оптимизирует использование памяти и позволяет обрабатывать длинные последовательности (до 65k токенов), где ZeRO3 сталкивается с OOM. Архитектура на Ray использует actor groups для изоляции модулей и единого контроллера для оркестровки.

На модели Qwen-VL 32B достигнуто ускорение в 1.26–1.37 раза по сравнению с uniform tensor parallelism.

#ray #ai_training #multimodal_ai #distributed_computing #anyscale #deep_learning

🚀 Ray ускорил обучение multimodal AI на 30%
Разработчики из Anyscale представили disaggregated hybrid parallelism для эффективного обучения multimodal-моделей на основе Ray | Сетка — социальная сеть от hh.ru