🌍 Meta представила Omnilingual ASR — систему распознавания 1600+ языков
Meta представила Omnilingual ASR — революционную систему распознавания речи, покрывающую более 1600 языков, включая малоиспользуемые.
Система основана на масштабированной до 7 млрд параметров модели wav2vec 2.0 и использует два подхода к декодированию: CTC и трансформерный декодер по аналогии с LLM. Это обеспечивает высокое качество даже для языков с минимальной цифровой представленностью. Поддерживаются новые языки буквально "из коробки" — достаточно нескольких примеров речи с текстом (in-context learning).
Выпущены модель, корпус из 350 малообеспеченных языков, demo и инструменты для кастомизации. Всё под открытыми лицензиями Apache 2.0 и CC-BY.
#asr #meta_omnilingual #speech_recognition #llm #open_source #ai_research