Speechmatics померили свое и чужие решения на бенчмарке от pipecat. Две наиболее важные метрики - TTFS(Time to Final Segment) - время от реального конца речи до финальной гипотезы. Semantic WER - насколько сохранился смысл высказывания. Бенчмарк без жести, нету фоновой речи, телевизоров, криков животных. ПРосто человек говорит, а потом - тишина. На таких примерах топовые системы дают 400мс задержки максимум и около 200 в медиане - это можно считать стандартом качества. Хотя, конечно - на реальных телефонных разговорах было бы интереснее. #stt #asr