🚀 AMD Quark ускоряет IBM Granite 4.0 в FP8
AMD Quark обеспечивает высокую производительность при квантовании модели IBM Granite 4.0 в формат FP8.
Библиотека AMD Quark, оптимизированная для GPU MI300 и MI355, использует нативную поддержку FP8 в матричных ядрах. Квантование реализуется через PTQ-подход с сохранением весов в формате safetensors. Поддерживается интеграция с vLLM и SGLang для инференса. Пример кода включает подготовку модели, калибровку и экспорт.
FP8-версия Granite 4.0 демонстрирует до 98% точности и рост производительности в 1.96× на MI300.
#amd_quark #fp8_quantization #ibm_granite #mi300 #rocm #llm_inference