🚀 AMD GPU Partitioning ускоряет LLM-вывод

AMD раскрыла метод повышения производительности LLM-вывода на GPU Instinct MI300X через аппаратное партиционирование.

Архитектура MI300X делит одну физическую GPU на изолированные логические устройства. В режиме DPX (Dual Partition X-celerator) выделяются два независимых вычислительных домена по 4 XCD каждый, а в паре с NPS2 — по отдельному NUMA-домену памяти. Это позволяет запускать два инстанса vLLM параллельно, эффективно используя ресурсы. В тестах с квантованной моделью Mistral-Nemo-Instruct-2407 на одном GPU режим DPX+NPS2 показал рост пропускной способности до 1.2× по сравнению с SPX+NPS1.

Подход особенно эффективен для мультиинстансного обслуживания, максимизируя ютилизацию GPU.

#amd #rocm #llm #gpu_partitioning #vllm #inference

🚀 AMD GPU Partitioning ускоряет LLM-вывод
AMD раскрыла метод повышения производительности LLM-вывода на GPU Instinct MI300X через аппаратное партиционирование | Сетка — социальная сеть от hh.ru