Speech technology дали ссылку на интересное интервью Yu Zhang(OpenAI, ex Google, автор MXNet, tacotron, GPT4o speech engine) про ASR.
Выписал наиболее забавные тезисы: ✔️Первая революция в этой сфере произошла, когда в нее пришел диплернинг, вторая - когда в нее пришел я. ✔️Tensorflow создан для одной единственной цели - реализовывать seq2seq модели. Если ты можешь смоделировать проблему как seq2sec задачу, tf хорош, для всего остального - ужасен. ✔️RNNT - увеличение числа параметров от 100М до 600М не дает ничего. ✔️Претрейнинг - ключ ко всему(wav2vec 2.0) ✔️Conformer+Pretraining+self_training ✔️Занимаясь ASR - занимали 30% вычислительных мощностей гугла ✔️Unsupervised pretraining работает намного лучше других подходов. ✔️Попытка масштабировать конформер - много проблем. При обучении больших моделей, лучше юзать трансформеры и использовать все наработки. ✔️При тренировке больших моделей(больше 100М параметров),бывает, что градиенты взрываются по хардварным причинам - и нужно уметь перезапускать обучение с предыдущего удачного места. В маленьких моделях вероятность столкнуться с таким очень мала. Если просто по железным причинам один бит имеет другой знак - это может изменить знак числа, и в некоторых случаях, например в Mixture of Experts - будет выбран другой эксперт и градиенты потекут совсем по другому. ✔️На шумных данных контрастив лоссы работаеют плохо. Лучше сработали предиктивные лоссы типа BERT ✔️BEST_RQ(USM) оказалось в итоге эффективнее других подходов, включая HUBERT. Тем не менее такой кодек не умеет понимать длинный контекст и строить понимание речи. ✔️По WER USM лучше GPT4, но в разговорах GPT4 лучше чем каскад из ASR и LLM ✔️Одна из главных проблем - NER. Но из контекста LLM ее поймет. Поэтому для диалоговых сценариев нужны другие метрики. ✔️Люди могут предпочиать в side-by-side модели с более высоким WER ✔️В мультимодальных моделях - хотим, чтобы аудио и текст дополняли друг друга, но чтобы аудио не вредило пониманию текста. ✔️В интеренте все больше грязных аудиоданных, в том числе TTS - проблема, аналогичная NLP где много сгенеренных текстов. ✔️Для хорошего WER нужен скорее мощный энкодер, и достаточно слабого декодера. Для приятного человеку распознавания - декодер имеет смысл делать побольше(см Whisper)