🚀 Ускорение мультимодальных моделей в vLLM

AMD представила оптимизацию для ускорения работы мультимодальных моделей в vLLM.

Вместо шардирования лёгкого визуального энкодера (Tensor Parallelism) используется репликация его весов по GPU с распараллеливанием обработки батча (Data Parallelism). Это устраняет частые all-reduce операции — основную задержку при обработке изображений. Переключение режима активируется одной строкой: --mm-encoder-tp-mode data. Поддерживаются модели Qwen3-VL, InternVL и step3.

На GPU AMD MI300X достигается до +45% прироста пропускной способности, особенно при работе с изображениями 512×512 и выше и 1–3 изображениями на запрос.

#vLLM #multimodal #AI_optimization #AMD #ROCm #inference

🚀 Ускорение мультимодальных моделей в vLLM
AMD представила оптимизацию для ускорения работы мультимодальных моделей в vLLM | Сетка — социальная сеть от hh.ru