SPEED-Bench меняет оценку ускорения LLM Появился SPEED-Bench и он показывает реальную скорость speculative decoding. Для тебя это значит честные метрики вместо лабораторных

SPEED-Bench меняет оценку ускорения LLM

Появился SPEED-Bench и он показывает реальную скорость speculative decoding. Для тебя это значит честные метрики вместо лабораторных. Стоит проверять SD-оптимизации на нем перед продом.

Бенчмарк учитывает и качество драфта и системные факторы вроде batch size и длины контекста. Есть два набора данных для семантического покрытия и пропускной способности плюс единый фреймворк с одинаковой токенизацией. Выяснилось что ускорение сильно зависит от домена и что случайные токены завышают throughput. Это меняет подход к сравнению моделей и инференс-движков.

🔗 https://huggingface.co/blog/nvidia/speed-bench

#LLM #Inference #Benchmark #NVIDIA #AI