🚀 Как эффективно развернуть MoE-модели в vLLM

AMD представила руководство по оптимальному использованию параллелизма в vLLM для MoE-моделей, таких как DeepSeek-R1 и Qwen3.

Разбираются четыре стратегии: тензорный (TP), дата-параллелизм (DP), пайплайн (PP) и экспертный параллелизм (EP). Ключевое внимание — на комбинации TP+EP и DP+EP, где выбор зависит от архитектуры модели и уровня параллельных запросов. Показано, что для моделей с MLA (например, DeepSeek) DP+EP критичен из-за дублирования KV-кэша при TP.

Бенчмарки на 8× MI300X показали: TP+EP на 52% быстрее при низкой нагрузке, а DP+EP даёт на 47% больше пропускной способности при высокой. Эффективность EP зависит от плотности активации экспертов: при <1% (например, Llama-4-Maverick) он вредит из-за накладных расходов AllToAll.

#vllm #moe #parallelism #amd #ai #deepseek

🚀 Как эффективно развернуть MoE-модели в vLLM
AMD представила руководство по оптимальному использованию параллелизма в vLLM для MoE-моделей, таких как DeepSeek-R1 и Qwen3 | Сетка — социальная сеть от hh.ru