🚀 AMD MI300X ускоряет llama.cpp
AMD представила значительное ускорение работы llama.cpp на GPU Instinct MI300X.
Оптимизации под ROCm 7.0.0 и поддержка Flash Attention и grouped GEMM позволили MI300X обойти NVIDIA H100 по пропускной способности при выводе крупных языковых моделей. Ключевые улучшения включают сокращение вызовов hipMemcpyAsync (~в 10 раз), что резко снизило задержки. В MI300X используется архитектура CDNA3, заточенная под вычисления в ИИ, что улучшает масштабируемость при больших размерах промптов. Поддерживаются GGUF-модели, включая DeepSeek-V3, Llama 3.1 70B и 8B, с квантованием Q4_K_M.
На DeepSeek-V3-671B при длине промпта 4096 MI300X показывает на 76% больше пропускной способности, чем H100, а на Llama 3.1 70B с включённой Flash Attention — аж на 213% больше.