🚀 AMD MI300X: масштабируемый вывод DeepSeek

AMD представила оптимизированную архитектуру для вывода DeepSeek на кластерах MI300X.

Решение использует разделение Prefill/Decode (2P2D) и мелкие группы Expert Parallel (EP) для отказоустойчивости. Каждый инстанс из четырёх узлов работает независимо, обеспечивая RDMA-передачу KV-кэша и горизонтальное масштабирование. В случае сбоя — только один инстанс перезапускается, остальные продолжают работать. Оптимизации включают AITER (FP8 GEMM, FusedMoE) и MoRI (KV-трансфер, MoE-коммуникации).

На 32 GPU достигнуто 32.3k in-tokens/s и 12.4k out-tokens/s на узел. При этом EP16 даёт +1.3× к пропускной способности против EP8 в условиях SLO и +2× в оффлайне. Локальное развертывание снижает стоимость до $1.0 за 1M токенов — экономия 55% против API DeepSeek.

#amd_mi300x #deepseek #moe_inference #rocm #distributed_inference #aiter

🚀 AMD MI300X: масштабируемый вывод DeepSeek
AMD представила оптимизированную архитектуру для вывода DeepSeek на кластерах MI300X | Сетка — социальная сеть от hh.ru