🚀 Ray ускорил обучение multimodal AI на 30%
Разработчики из Anyscale представили disaggregated hybrid parallelism для эффективного обучения multimodal-моделей на основе Ray.
Подход комбинирует разные стратегии параллелизма для разных модулей: sequence parallelism для vision-энкодера и tensor parallelism для LLM. Это снижает нагрузку на сеть, оптимизирует использование памяти и позволяет обрабатывать длинные последовательности (до 65k токенов), где ZeRO3 сталкивается с OOM. Архитектура на Ray использует actor groups для изоляции модулей и единого контроллера для оркестровки.
На модели Qwen-VL 32B достигнуто ускорение в 1.26–1.37 раза по сравнению с uniform tensor parallelism.
#ray #ai_training #multimodal_ai #distributed_computing #anyscale #deep_learning