Клиентский опыт и качество
11.02
Новость: Учёные улучшили распознавание эмоций по голосу с помощью ИИ
Исследователи из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ разработали AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций в речи. Она продемонстрировала высокую взвешенную точность 74,6% на одном из самых сложных датасетов для данной задачи - IEMOCAP (Interactive Emotional Dyadic Motion Capture). По качеству работы модель превосходит большинство существующих методов.
Сначала система выделяет ключевые характеристики речи, а затем дополняет их данными о голосовых особенностях (громкость и тональность). Эти два типа информации объединяются с помощью специального механизма, который эффективно сочетает общие речевые признаки с детальными акустическими нюансами. Такой подход позволяет точнее распознавать эмоции говорящего.
Этот инструмент решает проблему несоответствия между чистыми аудиоданными, на которых обучаются SSL-модели, и эмоциональными датасетами, содержащими разнообразные интонации и уровни интенсивности. Он находит применение в системах автоматического взаимодействия с человеком, таких как голосовые чат-боты, кол-центры, а также в цифровых сервисах мониторинга психологического состояния и других областях, где важно анализировать эмоции в режиме реального времени.
Исходный код модели открыт, что позволяет исследователям и разработчикам проводить дополнительные эксперименты, тестировать её на разных языках и датасетах, а также повышать её универсальность. Модель можно обучать на русскоязычных эмоциональных корпусах и использовать в голосовых помощниках и контакт-центрах.
еще контент в этом сообществе
еще контент в этом соообществе
Клиентский опыт и качество
11.02
войдите, чтобы увидеть
и подписаться на интересных профи