Speech technology дали ссылку на интересное интервью Yu Zhang(OpenAI, ex Google, автор MXNet, tacotron, GPT4o speech engine) про ASR

Speech technology дали ссылку на интересное интервью Yu Zhang(OpenAI, ex Google, автор MXNet, tacotron, GPT4o speech engine) про ASR.

Выписал наиболее забавные тезисы: ✔️Первая революция в этой сфере произошла, когда в нее пришел диплернинг, вторая - когда в нее пришел я. ✔️Tensorflow создан для одной единственной цели - реализовывать seq2seq модели. Если ты можешь смоделировать проблему как seq2sec задачу, tf хорош, для всего остального - ужасен. ✔️RNNT - увеличение числа параметров от 100М до 600М не дает ничего. ✔️Претрейнинг - ключ ко всему(wav2vec 2.0) ✔️Conformer+Pretraining+self_training ✔️Занимаясь ASR - занимали 30% вычислительных мощностей гугла ✔️Unsupervised pretraining работает намного лучше других подходов. ✔️Попытка масштабировать конформер - много проблем. При обучении больших моделей, лучше юзать трансформеры и использовать все наработки. ✔️При тренировке больших моделей(больше 100М параметров),бывает, что градиенты взрываются по хардварным причинам - и нужно уметь перезапускать обучение с предыдущего удачного места. В маленьких моделях вероятность столкнуться с таким очень мала. Если просто по железным причинам один бит имеет другой знак - это может изменить знак числа, и в некоторых случаях, например в Mixture of Experts - будет выбран другой эксперт и градиенты потекут совсем по другому. ✔️На шумных данных контрастив лоссы работаеют плохо. Лучше сработали предиктивные лоссы типа BERT ✔️BEST_RQ(USM) оказалось в итоге эффективнее других подходов, включая HUBERT. Тем не менее такой кодек не умеет понимать длинный контекст и строить понимание речи. ✔️По WER USM лучше GPT4, но в разговорах GPT4 лучше чем каскад из ASR и LLM ✔️Одна из главных проблем - NER. Но из контекста LLM ее поймет. Поэтому для диалоговых сценариев нужны другие метрики. ✔️Люди могут предпочиать в side-by-side модели с более высоким WER ✔️В мультимодальных моделях - хотим, чтобы аудио и текст дополняли друг друга, но чтобы аудио не вредило пониманию текста. ✔️В интеренте все больше грязных аудиоданных, в том числе TTS - проблема, аналогичная NLP где много сгенеренных текстов. ✔️Для хорошего WER нужен скорее мощный энкодер, и достаточно слабого декодера. Для приятного человеку распознавания - декодер имеет смысл делать побольше(см Whisper)

#asr #ml #speech #llm

13.04

еще контент в этом сообществе

мы не знаем, безопасна ли ссылка

13.04

еще контент в этом сообществе

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка