🗣 Нейронка, которая болтает за двоих (да ещё и с эмоциями)?
Очередная Text-to-Speech моделька? Ну, почти. Тут ребята из Nari Labs (говорят, их там всего двое 🤯) выкатили Dia – опенсорсную модель на 1.6B параметров, которая умеет генерировать не просто речь, а целые диалоги.
Кормишь её текстом с разметкой спикеров [S1] и [S2], а она на выходе выдает аудиофайл, где два "человека" общаются. `# Примерно так: text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face." Примеры генерации можно смотреть здесь.
Что ещё умеет: 🎭 Эмоции и тон: Можно подсунуть аудио-промпт (кусочек речи), чтобы задать нужную интонацию или даже склонировать голос. 😂 Невербалка: Генерирует всякие (laughs), (coughs), (sighs) и прочие междометия прямо в речи. Список поддерживаемых звуков есть в README.
Интересный факт: Эти двое из Nari Labs со своей моделькой умудрились залезть в топ Hugging Face, обогнав всяких Microsoft и Nvidia.
Ложка дёгтя (куда без неё): 🇬🇧 Пока только английский. 💻 Требует GPU (пишут, ~10GB VRAM для fp16). CPU-саппорт обещают позже. 🤏 Капризна к длине текста: слишком короткие куски (<5 сек) звучат неестественно, слишком длинные (>20 сек) – ускоряются. С невербалкой тоже надо аккуратно. ⚠️ Голос каждый раз новый, если не фиксировать seed или не использовать аудио-промпт.
Где пощупать: 🚀 Hugging Face Demo 🐙 GitHub Репа (Можно склонировать и запустить локально через uv run app.py или python app.py, если есть железо).
Выглядит как минимум любопытно, особенно для генерации диалогов или озвучки с разными голосами без заморочек. Исходники открыты, можно ковырять. Потенциально полезная штука для всяких подкастов, озвучки видео или игровых персонажей.
еще контент автора
еще контент автора
войдите, чтобы увидеть
и подписаться на интересных профи