Исследования на тему потоковой обработки аудиопотока сразу LLM моделью без промежуточного перевода входа в текст - постепенно от единичных переходят к массовым. Вот интересная статья - в первую очередь там, что основательно сравнились со всеми основными решениями, реализованными ранее. Технически - взяли два подхода к тому, как добавить аудиомодальность к заранее обученной тестовой ллм. Концептуально похоже на moshi берутся токены ввода(аудио), тестовые и аудио токены ответа, выравниваются по времени, и на каждом шаге генерации - подается фьюжн всех трех через конкатенацию и проекцию(вариант 1) или через кросс-эттеншн(вариант 2). Качество и скорость работы замерется на двух типах бенчмарков - 1. Понимание аудио и ответы на вопросы. 2. Полнодуплексные диалоги - обработка перебиваний, задержки перехода активной роли в диалоге, следование сценариям. Первый способ лучше работает для бенчмарков на понимание, второй - на потоковых диалогах, но в целом - достойные результаты и там и там. За основу взят Qwen 1.7, дополнительно Qwen 0.6 плюс токенизатор и вокодер из CosyVoice для TTS части, Whisper encoder для вместо-ASR части. Код и веса, традиционно, обещают чуть позже. Пока есть демо-страничка с одним примером.