🎙️ Обновлён лидерборд ASR: мультиязычность и длинная речь

Hugging Face обновил Open ASR Leaderboard, добавив треки для мультиязычного и длинного распознавания речи.

Лучшие модели объединяют Conformer-энкодер и LLM-декодер — они лидируют по точности (например, Canary-Qwen, Granite-Speech). Для скорости стоит выбирать CTC/TDT-архитектуры, как у Parakeet CTC: они в 10–100× быстрее, почти без потерь в WER. Зато многоязычность часто снижает точность в отдельных языках: Whisper Large v3 поддерживает 99 языков, но уступает специализированным моделям на английском.

Открытые модели пока слабее в обработке длинных аудио — подкастов и встреч. Здесь пока впереди закрытые системы, но open-source быстро догоняет.

#asr #speech2text #huggingface #leaderboard #open_source #nlp

🎙️ Обновлён лидерборд ASR: мультиязычность и длинная речь
Hugging Face обновил Open ASR Leaderboard, добавив треки для мультиязычного и длинного распознавания речи | Сетка — социальная сеть от hh.ru