🧠 SparK: новый метод сжатия KV-кэша в LLM

AMD представила SparK — метод сжатия кэша ключей и значений без переобучения.

SparK устраняет избыточность на уровне фич-каналов в KV-кэше с помощью «обрезки и восстановления». Метод анализирует важность каналов для каждого запроса, отбрасывает несущественные и восстанавливает их при вычислении внимания. Это позволяет достичь неструктурированной разреженности без потери точности. Решение совместимо с квантованием и другими методами сжатия.

На GPU AMD Instinct™ MI250 SparK сокращает объём кэша на 30% и сохраняет качество даже при обрезке 80% каналов.

#llm_optimization #amd_rocm #kv_cache #sparse_attention #ai_inference

🧠 SparK: новый метод сжатия KV-кэша в LLM
AMD представила SparK — метод сжатия кэша ключей и значений без переобучения | Сетка — социальная сеть от hh.ru