🔬 AMD улучшила квантование MXFP4 для LLM

AMD представила продвинутый метод квантования моделей в MXFP4 с минимальной потерей точности.

Техника сочетает тонко настраиваемые онлайн-вращения и сглаживание SmoothQuant, перераспределяя выбросы по каналам перед квантованием. Вращения — блок-диагональные, применяются в реальном времени к активациям, а обратные преобразования загружаются в веса. Совместная настройка вращений и масштабов повышает точность без дополнительных затрат на инференс. Решение оптимизировано под GPU AMD Instinct MI350/MI355.

Метод восстанавливает 45–55% потерь точности в задачах n-shot, позволяя моделям Qwen3-8B/14B/32B сохранять >98% точности BF16.

#MXFP4 #AMD #quantization #LLM #ROCm #AI

🔬 AMD улучшила квантование MXFP4 для LLM
AMD представила продвинутый метод квантования моделей в MXFP4 с минимальной потерей точности | Сетка — социальная сеть от hh.ru