Live Transcriber — бот для перевода любого видео в текст

Я работаю над подкастами «Куда расти?» и «Путь ИИ» и у меня была вполне конкретная боль: нужно регулярно разбирать чужой контент — выжимать цитаты из выпусков гостей, подбирать материал, делать выдержки. RUTUBE, YouTube, ВКонтакте, Яндекс.Музыка — куча разнородного материала и платформ.

Нормального инструмента, который умеет обрабатывать все нужное мне из коробки я так и не нашёл. Где-то только YouTube. Где-то нет диаризации — это когда в транскрипте не просто сплошной текст, а чётко размечено, кто именно что сказал. Ну и в какой-то момент я решил написать своё. Но это пет-проект и не хотелось раздувать его на долгие недели, а еще руки чесались что-то с нуля завайбкодить. Решил, попробовать Claude Code, надо же понять что у всех на нем кукуха помешалась.

Первая мысль была поднять Whisper — open-source модель от OpenAI — на своём сервере. Звучит логично: сам хостишь, сам управляешь. Но сразу возникла проблема: Whisper не умеет в диаризацию. Чтобы получить разметку по спикерам, нужно поверх него собрать отдельный стек — WhisperX + Pyannote для спикеров. Всё это хочет нормального GPU — минимум 8–16 ГБ, в идеале 24 ГБ уровня RTX 4090. Такой сервер в облаке при постоянной доступности обходится в $150–300 в месяц. Для личного инструмента — дикий оверпрайс.

И тут я наткнулся на AssemblyAI. Диаризация по голосу у них встроена нативно — никакого пайплайна из трёх моделей, никакого GPU-сервера. Всё через API. И по бенчмаркам у них на 30% меньше галлюцинаций, чем у Whisper Large-v3. По факту вышло даже лучше и сильно дешевле. Кстати, до AssemblyAI я пробовал GPT-4o для транскрибации, но диаризацию он угадывал, получалось не красиво. Оставил GPT API только для конспектов и заголовков файлов.

Параллельно упёрся в ограничение Telegram: стандартный бот принимает файлы только до 20 МБ. А файлы иногда загрузить тоже хочется. Официальный способ обойти — та ещё история, нужно регистрировать приложение в ТГ, но там ужасный юзерфлоу с ошибками регистрации и после нескольких попыток, просто забил. Решение нашлось неожиданно простое: обход ограничений через Mini App — по факту, это обычная HTML-страничка, через неё файлы любого размера идут напрямую на сервер, минуя Bot API.

Пока писал все это дело прошел путь от «да нормально можно жить на подписке за 20 баксов» до «жесть, одна фича сжирает весь лимит сессии». Настроил себе красивый автопайплайн работы с гитхабом, параллельно работал в Codex и Cursor. В итоге, сделал что хотел, вайбкодингом крайне доволен.

Что бот умеет транскрибировать:

🎙 Голосовые сообщения 🎥 Видеокружочки 📼 Видеофайлы (mp4, mov и т.п.) 🔗 Ссылки на видео — YouTube, RUTUBE, ВКонтакте, Vimeo и всё, что поддерживает yt-dlp 📸 Instagram* и Facebook* Reels ☁️ Публичные ссылки на Яндекс Диск 🎧 Выпуски подкастов Яндекс Музыки — по прямой ссылке на трек 📤 Мини-апп для загрузки файлов без ограничений по размеру 📝 Краткий конспект — кнопка под транскрибацией, тезисы через GPT-4o 🧹 Очистка текста — убирает слова-паразиты и мусор, сохраняя структуру и смысл

Транскрипты с несколькими спикерами размечаются по голосу. Короткий результат транскрибации отправляется прямо в чат, длинный — txt-файлом с GPT-заголовком.

Что потребуется для запуска:

1️⃣ AssemblyAI API — регистрация бесплатная, на старте дают $50 ≈ 185 часов транскрибации 2️⃣ OpenAI API — конспекты и заголовки; $5 хватит на старт 3️⃣ Telegram Bot Token — через @BotFather, пять минут 4️⃣ VPS — $5–10/мес, 1 ГБ RAM, одно ядро; на нём же спокойно живут другие ваши проекты 5️⃣ Домен — нужен для мини-аппа.

Стоимость транскрибации часа контента — ~$0.40–0.50.

Скиньте ссылку на репозиторий в любой агент — Claude Code, Cursor, что угодно — и попросите расписать пошаговый план деплоя. README тоже подробный, ознакомьтесь.

P.s.: Live Transcriber — потому что теперь транскрибировать можно вообще все, что нужно для жизни.

*Meta признана экстремистской организацией на территории РФ

#вайбкодинг #подкаст #тулзы

Live Transcriber — бот для перевода любого видео в текст | Сетка — социальная сеть от hh.ru