Простое, но небесполезное исследование от индусов. Вывели новую метрику субъективных опросов для TTS - HFR(Human Fool Rate). Дают вперемешку слушателям записи живой речи и синтеза(или для контроля - только живой речи) и считают, сколько примеров пользователь посчитал живой. Когда вся речь живая - результат порядка 70%. Если половина речи синтезирована ElevenLabs или PlayHT - в зерошоте - результат примерно такой же. У лучшего из протестированных опенсорсов(F5-TTS) - 50%, остальне еще хуже. Если F5 зафайнтюнить, можно выиграть еще пару процентов, но до ElevenLabs все равно не дотянет. #tts #ml #speech