Сегодня интересная работа - DuplexSLA, A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action Так же как в других полнодуплексных системах обрабатываются одновременно каналы юзера и ассистента в виде аудиотокенов, но добавляется отдельно текстовый канал действий. Действия - бывают двух категорий. 1. События как в семантическом ваде - пауза, перебивание, либо бэкченеллинг. Последнее - это всякие угу, ага, хорошо - когда пользователь что-то сказал, но реагировать на это не нужно. 2. Вызовы инструментов. Если возврщать их в том же канале, где речь ассистента - это дополнительная задержка либо паузы, а в отдельном канале - можно в параллель.
Сделали свой бенчмарк, померились с опенсорсом и коммерческими апи. Заявлена точность вызова инструментов в 94%, на уровне gpt realtime и gemini-flash-live, но при этом задержка 300мс против >1с у конкурентов.