Как мы задолбались терять детали на созвонах

…и сделали свой сервис для расшифровки

Как было дело. Полгода назад я рассказывал, как собрал себе бота для расшифровки голоса в текст прямо в Телеграме.

Для меня он чертовски удобен, чтобы где-то на ходу надиктовать сообщение, список задач или быстро записать голосом заметку — пока поймал мысль и она не испарилась.

Но для рабочих созвонов этот вариант не подходит, API Телеграма просто не позволяет грузить аудио тяжелее 20 Мб. Поэтому для нашей команды мы сделали отдельную веб-версию для расшифровки длинных встреч и брейнштормов — Чатлик Team.

Плюс ко всему, мы научили Чатлик распознавать голоса и раскладывать разговор по спикерам, чтобы было видно, кто именно и что говорил. Для звонков и встреч это, конечно, совсем другой уровень удобства.

К хорошему я привык очень быстро и теперь транскрибирую 100% созвонов для составления конспектов или фоллоуапов.

(Справедливости ради: пока что на коротких репликах Чатлик иногда может распознать одного спикера как двух разных, но это мелочи — как дойдут руки, повысим точность).

Почему я не пользуюсь встроенными саммаризаторами в Zoom и т.д.?

Я слишком трепетно отношусь к деталям и не люблю, когда какой-нибудь встроенный AI Summary начинает от себя передергивать текст, выбрасывать важные куски и менять смысл.

Тот же AI Companion в Zoom постоянно теряет и искажает факты в своих сводках. А когда тебе важны детали, это дико бесит.

Поэтому я предпочитаю сначала получить прямую расшифровку, а уже потом, если нужно, сам решаю, что с ней делать: сократить, пересобрать, саммаризировать, ну, вы поняли.

С обычными транскрибаторами тоже оказалось много нюансов: где-то страдает качество распознавания, где-то нет диаризации, куда-то нельзя загрузить тяжелый файл. А хотелось просто закинуть аудио и получить нормальный текст.

В итоге мы сделали Чатлик под себя и ежедневно используем его в работе. Но, судя по отзывам ребят, которым я давал доступ за пределами компании, инструмент получился довольно полезным и мы решили открыть его для всех.

Сразу предупрежу, проект мы тянем на своих серверах, поэтому есть два честных нюанса.

Первый — сервис платный (оплата за минуты), потому что распознавание требует GPU, а железо стоит дорого.

Второй — иногда могут быть очереди, когда параллельно много людей расшифровывают файлы, приходится подождать минут 15-20. Собственно, оплату и ввели, чтобы при наличии спроса окупать текущие сервера и добавлять новые мощности.

Как затестить?

Сервис живет тут: https://team.chatlik.io/

Авторизацию мы прикрутили через Телеграм, чтобы все было без паролей и регистраций.

Чтобы вы могли нормально потестить расшифровку на своих созвонах, сделал промокод CHATLIK-100-SETKA (вводится в боте при авторизации). Он дает 100 бесплатных минут.

Кстати, про корпоративную безопасность. Если Чатлик вам зашел, но правила не позволяют выносить рабочие созвоны за контур компании — напишите мне в ЛС. Мы можем развернуть его чисто под вашу компанию, на ваших же серверах.

В ближайшее время в сервисе появится ИИ саммари и поиск по расшифровкам. Со временем хочу прикрутить бота, которого можно будет добавлять прямо как участника встречи в Zoom или Яндекс Телемост, чтобы он сам вел запись и отдавал текст в Чатлик. В общем, бэклог потихоньку копится.

#Студия #Продукт