AI-предприниматель основатель Avato AI / 12AI · 01.07
Все видео в моем телеграмм канале
• Kling AI теперь умеет делать видео-озвучку Появилась интересная фишка: загружаешь своё видео (можно даже из Midjourney), и Kling сгенерирует для него сразу четыре варианта озвучки. Стоит 10 кредитов (примерно 15 центов), можно попробовать на бесплатном тарифе. Из минусов — нельзя задать текст или промпт, только сам видеоролик, так что кастомизация пока ограничена. См. видео 1 и 2
• QWEN-VLO: почти как GPT-4o + Sora Qwen3 обновился — теперь их чат стал максимально мультимодальным. Закидываешь туда фото, документ, звук, видео — и получаешь генерацию чего угодно: картинок, видео, брейншторминг идей, анализ изображений. Qwen VLo работает как gpt-4o, она авторегрессионная (качество заметно хуже, но зато пока что абсолютно бесплатно). Протестировать можно здесь. См. видео 3
• Anthropic доверили Claude управлять мини-магазином — результат неоднозначный Claude Sonnet 3.7 месяц управлял вендинговым автоматом в офисе Anthropic. ИИ отвечал за закупки, ассортимент, ценообразование, учёт — даже принимал заказы. В плюсах — находил новых поставщиков, расширял ассортимент, сам пополнял запасы. Но и фейлов было полно: раздавал скидки и товары бесплатно, закупал по завышенным ценам, путал платёжные реквизиты, галлюцинировал (обещал лично доставлять заказы «в пиджаке и галстуке»). Итог — бизнес в минусе, но эксперименты продолжат, тем более что уже давно есть opus-4.0, который мог бы сделать и не наделать ошибок. Но цена у него сильно выше.
• OpenAI открыли API для Deep Research Теперь можно программно делать глубокие запросы к новым моделям Deep Research — o3-deep-research-2025-06-26 (максимальное качество) и o4-mini-deep-research-2025-06-26 (для задач с малой задержкой). То есть теперь это можно встраивать в свои проекты для ресёрча в интернете. Очень рекомендую обратить на это внимение! Документация
• MultiTalk — новая открытая lip sync модель MultiTalk генерирует видео с несколькими персонажами по аудио и тексту, поддерживает 15 секунд в 480p/720p, работает с промптами для управления персонажами, умеет генерировать мультики и синхронизирует губы с речью максимально точно. Особенно прикольно, что поддерживаются не только обычные голоса, но и пение, нестандартные стили, мультяшные герои. Подключается к ComfyUI, есть на GitHub/HuggingFace, См. видео 4
• Baidu открыли весь стек ERNIE 4.5 Китайцы выкатили в open source целую линейку моделей ERNIE 4.5 — от компактных до гигантских мультимодальных. Старшие версии уже догоняют DeepSeek V3 и GPT-4.1 по бенчмаркам, доступны и веса, и инструменты для тренировки, и inference. Тестировать бесплатно тут
• RuadaptQwen3-4B-Instruct — релиз адаптированной модели Русскоязычная версия Qwen3 ускорилась, а по метрикам даже опережает оригинал на ряде датасетов. Так что можно пробовать там, где важна локальная модель.
• В Британии стажёров и джунов стало меньше из-за ChatGPT Великобритания фиксирует падение спроса на начинающих специалистов на 32% с момента запуска ChatGPT. Теперь только 25% вакансий для выпускников и тех, кто без опыта. Совет от правительства: срочно учить AI, иначе будет сложно найти работу. Источник
• ByteDance запустил XVerse — text2image с продвинутым управлением атрибутами Теперь в XVerse можно создавать сложные сцены с множеством персонажей и детально настраивать внешний вид, позу, стиль каждого объекта. То есть можно закинуть фото 2-3 людей, и получить их на 1 фото. Но фото пока получаются пластиковыми, и есть только код. Примеры и код тут
еще контент автора
еще контент автора
AI-предприниматель основатель Avato AI / 12AI · 01.07
войдите, чтобы увидеть
и подписаться на интересных профи