AI Open Space пишет:

Модель WAVe‑1B проверяет синтетическую речь по словам

WAVe‑1B Multimodal оценивает качество синтетической речи на уровне отдельных слов — это позволяет отфильтровать плохие данные перед обучением ASR и сократить затраты на тренировку моделей.

Модель объединяет аудио и текстовые эмбеддинги: текст обрабатывает XLM‑RoBERTa, аудио — Wav2Vec2‑BERT 2.0, а модуль выравнивания на multi‑head attention и GLU сопоставляет слова с аудиосегментами. Такой подход выявляет ошибки произношения, тайминга и просодии, которые пропускают sentence‑level фильтры. По данным автора, при обучении португальского ASR это снижало число шагов обучения и уменьшало объём синтетических данных.

🔗 https://huggingface.co/yuriyvnv

#ASR #SpeechAI #Multimodal #Embeddings #SyntheticData