🚀 AMD GPU Partitioning ускоряет LLM-вывод
AMD раскрыла метод повышения производительности LLM-вывода на GPU Instinct MI300X через аппаратное партиционирование.
Архитектура MI300X делит одну физическую GPU на изолированные логические устройства. В режиме DPX (Dual Partition X-celerator) выделяются два независимых вычислительных домена по 4 XCD каждый, а в паре с NPS2 — по отдельному NUMA-домену памяти. Это позволяет запускать два инстанса vLLM параллельно, эффективно используя ресурсы. В тестах с квантованной моделью Mistral-Nemo-Instruct-2407 на одном GPU режим DPX+NPS2 показал рост пропускной способности до 1.2× по сравнению с SPX+NPS1.
Подход особенно эффективен для мультиинстансного обслуживания, максимизируя ютилизацию GPU.