🚀 SparK: революция в обработке LLM

AMD представила SparK — метод сжатия KV-кеша без переобучения.

SparK устраняет избыточность в каналах признаков, применяя неструктурированную прунинг-стратегию с восстановлением данных на этапе вычисления внимания. Вместо удаления токенов, как в классических методах, SparK анализирует важность каналов для каждого запроса и удаляет лишь незначимые. Восстановление происходит динамически при расчёте attention scores, что сохраняет точность модели. Решение совместимо с квантованием и другими методами сжатия.

На GPU AMD Instinct™ MI250 SparK сокращает объём KV-кеша на 30% и сохраняет точность даже при 80% прунинге — падение менее 5%.

#amd_rocm #llm_optimization #kv_cache #ai_inference #sparsity #amd_gpu

🚀 SparK: революция в обработке LLM
AMD представила SparK — метод сжатия KV-кеша без переобучения | Сетка — социальная сеть от hh.ru