SPEED-Bench меняет оценку ускорения LLM
Появился SPEED-Bench и он показывает реальную скорость speculative decoding. Для тебя это значит честные метрики вместо лабораторных. Стоит проверять SD-оптимизации на нем перед продом.
Бенчмарк учитывает и качество драфта и системные факторы вроде batch size и длины контекста. Есть два набора данных для семантического покрытия и пропускной способности плюс единый фреймворк с одинаковой токенизацией. Выяснилось что ускорение сильно зависит от домена и что случайные токены завышают throughput. Это меняет подход к сравнению моделей и инференс-движков.