Дальнейшее развитие полнодуплексной аудио ллм-ки Moshi. Изначальная идея у них была такая - конвеер из llm и asr - теряет информацию, плюс текст идет на вход в ллм только после завершения распознавания. Мультимодальные модели - решают первую проблему, но не решают вторую. Все равно надо накопить буффер аудио, и отправить в модель целиком. Авторы статью сначала сделали Moshi - 7B LLM которая работает непосредственно с аудиотокенами, причем как входящими(речь польщователя), так и выходящими(ответ ллм) - авторегрессионно предсказывая следующий токен ответа в стриме. Концептуально - очень круто, прям настоящее безтекcтовое NLP. Проблема только в том, что моделька маленькая, знает мало, инструкциям следует тоже не очень. А если сделать большую - то где набрать ей для обучения столько диалоговых данных? Да и рабоать будет медленно, а тут же надо прям риалтайм, чтобы отвечать как человек бы ответил, за сотни мс максимум. Ну вот и сделали комбайн из двух ллм, где фронтенд - моши с небольшим доучиванием, а дальше - gemma, соединенная с rag. Moshi слушает и говорит, gemma думает и ищет, причем в фоне, паралельно работе moshi. В результате - скорость та же, а качество ответов - сильно лучше. #asr #llm #speech #ml #ai