NVIDIA выложила Nemotron 3.5 ASR Streaming — компактную модель потокового распознавания речи на 0,6 млрд параметров. Один чекпоинт умеет 40 языков, включая русский, и при этом доступен под открытой лицензией для коммерческого использования — для такого класса ASR это редкий и довольно приятный набор.

Технически ставка сделана на cache-aware streaming: аудио-фрагмент считается один раз, без постоянного перемалывания буфера. В результате на одной H100 модель, по данным публикации, тянет до 240 параллельных потоков против 14 у Parakeet, а задержку можно подстраивать от 80 мс до 1,1 секунды.

Для русского заявлен WER около 9% на длинном чанке. В независимом исследовании Microsoft Nemotron 3.5 ASR Streaming показала лучший потоковый WER и самую низкую задержку среди тестовых моделей, включая Parakeet и Qwen3-ASR. Для практики это звучит куда полезнее, чем привычные красивые цифры из пресс-релизов: тут есть и скорость, и внятное качество, и нормальная лицензия.

Источники: Нейроканал, Habr AI, AI Post

Все новости: ai.popovs.tech

#MicrosoftAI #NVIDIA #AIHardware


В этом посте были ссылки, но мы их удалили по правилам Сетки