Коллега из Together AI рассказывает про голосовых агентв примерно то же, что и я недавно. Из любопытного: 1. Многие их клиенты пытаются юзать speech-to-speech модели, но так и не справляются починить следование инструкциям и тул коллинг - и возвращаются на старый добрый конвеер. 2. Если модели в конвеере в разных геолокациях - это плюс 75мс на сетевой хоп, и суммируется по стадиям, в результате - все плохо. 3. На ллм они выделяют бюджет TTFT в 200-300 мс, что очень мало. Реально с этим справляются модельки в 8-30B параметров. 4. Turn detection - нерешенная проблема.

#voice #ai


В этом посте были ссылки, но мы их удалили по правилам Сетки