🚀 AMD выпустила скрипт QuickTune для тонкой настройки GEMM
AMD представила инструмент QuickTune для автоматизации оффлайн-тюнинга операций GEMM через hipBLASLt.
Скрипт автоматизирует все этапы настройки: обработку логов, удаление дубликатов, запуск тюнинга и анализ результатов. Он использует hipblaslt-bench и поддерживает оптимизацию с swizzle-ядрами, перестраивающими расположение данных в памяти для устранения конфликтов банков памяти. QuickTune позволяет за один запуск Python-скрипта подобрать оптимальные ядра под конкретные формы матриц в LLM. После настройки результат применяется через переменную окружения HIPBLASLT_TUNING_OVERRIDE_FILE, что исключает задержки при запуске.
На примере Qwen3-32B на GPU MI308 достигнуто ускорение на 14.91% в инференсе. Тюнинг без swizzle дал прирост до 110.43%, со swizzle — до 131.47%.