🚀 AMD раскрыла оптимизации Primus для LLM
Primus — единый фреймворк AMD для высокопроизводительного обучения больших языковых моделей на GPU Instinct™.
Primus оптимизирует ключевые вычислительные узлы: GEMM и FlashAttention. Через библиотеку Primus-Turbo активируются ускоренные ядра AITER, сокращающие задержки FlashAttention до 75% в backward-проходе. Для GEMM-операций предлагается оффлайн-настройка через hipblaslt-bench, повышающая производительность до 5%. Все оптимизации интегрированы в CLI и работают «из коробки».
На MI325 GPU достигается до 190 TFLOPs/ГПУ при обучении Llama3.1 70B с использованием FSDP2 и рекомендованных стратегий параллелизации.