Voxtral

Voxtral

Представляем Voxtral Mini и Voxtral Small — две мультимодальные модели аудиочата. Voxtral обучен понимать как голосовые записи, так и текстовые документы, демонстрируя передовые показатели производительности на различных эталонных тестах для анализа речи, сохраняя при этом сильные способности обработки текста. Модель Voxtral Small превосходит ряд закрытых аналогов, оставаясь достаточно компактной для локального запуска. Окно контекста размером 32К позволяет обрабатывать аудиофайлы длительностью до 40 минут и вести продолжительные многоходовые беседы. Мы также предлагаем три бенчмарка для оценки моделей понимания речи на предмет знания и эрудиции. Обе модели Voxtral распространяются под лицензией Apache 2.0.

https://arxiv.org/pdf/2507.13264