DeepSeek выпустила DSpark — метод спекулятивного декодирования для V4 Flash и V4 Pro

DeepSeek выпустила DSpark — метод speculative decoding для V4 Flash и V4 Pro. Компания обещает прирост throughput от 51% до 400% в зависимости от сценария, а для inference это уже звучит не как лабораторная игрушка, а как способ заметно удешевить генерацию.

Схема знакомая: быстрая модель заранее набрасывает несколько токенов, основная проверяет их пачкой. Если угадала, дорогих прогонов становится меньше. DeepSeek отдельно пишет, что DSpark работает не только на её моделях, но и на open-weight Gemma и Qwen — и это самая практичная часть релиза.

Источник: Machinelearning

Все новости: ai.popovs.tech

#DeepSeek #HuggingFace #Gemma