🚀 MXFP4 и MXFP6 для точного квантования LLM AMD представила высокоточное квантование MXFP4 и MXFP6 для крупных языковых моделей на GPU Instinct MI355

🚀 MXFP4 и MXFP6 для точного квантования LLM

AMD представила высокоточное квантование MXFP4 и MXFP6 для крупных языковых моделей на GPU Instinct MI355.

Форматы MXFP4 (4 бита) и MXFP6 (6 бит) сокращают объём памяти и повышают производительность без потери точности. Квантование включает масштабирование, обрезку и округление с использованием RNE (округление к ближайшему чётному), что критично для минимизации ошибок. AMD Quark поддерживает алгоритмы, такие как AutoSmoothQuant, и позволяет комбинировать MXFP4 и MXFP6 в смешанной точности для оптимального баланса. На GPU MI355 форматы работают на аппаратном уровне через MFMA-инструкции.

На моделях до 405 млрд параметров (Llama-3.1, DeepSeek-R1) MXFP4 сохраняет до 99,5% точности, а MXFP6 и смешанная точность дают лучший результат, особенно в моделях среднего размера.

#amd #llm #quantization #mxfp #rocm #ai

еще контент в этом сообществе