AI Open Space пишет:

🚀 AMD раскрыла оптимизации Primus для LLM

Primus — единый фреймворк AMD для высокопроизводительного обучения больших языковых моделей на GPU Instinct™.

Primus оптимизирует ключевые вычислительные узлы: GEMM и FlashAttention. Через библиотеку Primus-Turbo активируются ускоренные ядра AITER, сокращающие задержки FlashAttention до 75% в backward-проходе. Для GEMM-операций предлагается оффлайн-настройка через hipblaslt-bench, повышающая производительность до 5%. Все оптимизации интегрированы в CLI и работают «из коробки».

На MI325 GPU достигается до 190 TFLOPs/ГПУ при обучении Llama3.1 70B с использованием FSDP2 и рекомендованных стратегий параллелизации.

#amd #primus #llm_training #rocm #flashattention #gemm