🚀 Gumiho: революция в ускорении LLM
AMD представила Gumiho — новую архитектуру для ускорения генерации текста в LLM.
Gumiho сочетает последовательное и параллельное декодирование, выделяя больше ресурсов на первые токены черновика, чья точность критична для общего успеха. Первые два токена генерируются последовательно с помощью Transformer, обеспечивая высокую точность, а остальные — параллельно через лёгкие MLP-головы. Также используется Full Tree Attention: алгоритм наращивает короткие цепочки за счёт уже вычисленных токенов без дополнительных затрат. Решение оптимизировано под ROCm и AMD Instinct™ GPU.
На тестах Gumiho показал ускорение до 15,8% против Eagle-2, особенно эффективно масштабируясь на моделях 70B.
#speculative_decoding #llm_inference #amd_rocm #ai_acceleration #gumiho #transformer_optimization