🚀 MXFP4 и MXFP6 для точного квантования LLM
AMD представила высокоточное квантование MXFP4 и MXFP6 для крупных языковых моделей на GPU Instinct MI355.
Форматы MXFP4 (4 бита) и MXFP6 (6 бит) сокращают объём памяти и повышают производительность без потери точности. Квантование включает масштабирование, обрезку и округление с использованием RNE (округление к ближайшему чётному), что критично для минимизации ошибок. AMD Quark поддерживает алгоритмы, такие как AutoSmoothQuant, и позволяет комбинировать MXFP4 и MXFP6 в смешанной точности для оптимального баланса. На GPU MI355 форматы работают на аппаратном уровне через MFMA-инструкции.
На моделях до 405 млрд параметров (Llama-3.1, DeepSeek-R1) MXFP4 сохраняет до 99,5% точности, а MXFP6 и смешанная точность дают лучший результат, особенно в моделях среднего размера.