SILMA TTS: открытая модель речи для арабского
Появилась лёгкая open‑source модель SILMA TTS, которая генерирует речь на арабском и английском и поддерживает клонирование голоса по короткому примеру. Это делает запуск собственных TTS‑сервисов проще: можно тестировать голосовые интерфейсы, ассистентов и медиа‑продукты без закрытых API.
Модель на 150M параметров построена на диффузионной архитектуре F5‑TTS и обучена на десятках тысяч часов аудио. Она поддерживает арабскую диакритику (Tashkeel), нормализацию текста через NeMo и клонирует голос менее чем по 8 секундам записи. Проект распространяется по лицензии Apache‑2.0, поэтому подходит как для исследований, так и для коммерческих продуктов.
🔗 https://huggingface.co/blog/silma-ai/opensource-arabic-english-text-to-speech-model