🎙️ Обновлён лидерборд ASR: мультиязычность и длинная речь
Hugging Face обновил Open ASR Leaderboard, добавив треки для мультиязычного и длинного распознавания речи.
Лучшие модели объединяют Conformer-энкодер и LLM-декодер — они лидируют по точности (например, Canary-Qwen, Granite-Speech). Для скорости стоит выбирать CTC/TDT-архитектуры, как у Parakeet CTC: они в 10–100× быстрее, почти без потерь в WER. Зато многоязычность часто снижает точность в отдельных языках: Whisper Large v3 поддерживает 99 языков, но уступает специализированным моделям на английском.
Открытые модели пока слабее в обработке длинных аудио — подкастов и встреч. Здесь пока впереди закрытые системы, но open-source быстро догоняет.
#asr #speech2text #huggingface #leaderboard #open_source #nlp