Огромное спасибо Николаю за независимый тест нашей модели ASR. В чате поиронизировали, что e2e-v3 чем-то напоминает Gigaam V3, но нет, совпадения абсолютно случайны. У нас абсолютно своя архитектура и собственный претрейн. Модель эффективно реализует стриминговый сценарий, оптимизировалась для телефонного канала и адаптирована к нашим типовым сценариям использования. В замерах WER есть много ньюансов, как размечаются хеситации, собственные имена, сокращения, фоновая речь, и это иногда может влиять в пределах нескольких процентных пунктов. Кроме того, подбор оптимальных параметров, подключение словарей или небольшой дополнительный тюнинг под домен - зачастую сильно решают. Тем не менее, подобные тесты - скорее всего, вполне отражают уровень качества, которое получит пользователь из коробки при базовых настройках, и скорее всего по нему - мы, объективно , слегка отстаем от актуальных решений яндекса и сбера. Впрочем, с практической точки зрения - разница, скорее всего, почти нигде не будет заметной. И для многих применений, где нужно обработать в потоковом режиме большой объем аудио эффективно по использованию железа, с низкими задержками и приличным качеством распознавания - мы можем быть удачным решением. А модели с лучшей точностью - уже на подходе. #asr