#разборновостей

Все видео в моем телеграмм канале

• Kling AI теперь умеет делать видео-озвучку Появилась интересная фишка: загружаешь своё видео (можно даже из Midjourney), и Kling сгенерирует для него сразу четыре варианта озвучки. Стоит 10 кредитов (примерно 15 центов), можно попробовать на бесплатном тарифе. Из минусов — нельзя задать текст или промпт, только сам видеоролик, так что кастомизация пока ограничена. См. видео 1 и 2


• QWEN-VLO: почти как GPT-4o + Sora Qwen3 обновился — теперь их чат стал максимально мультимодальным. Закидываешь туда фото, документ, звук, видео — и получаешь генерацию чего угодно: картинок, видео, брейншторминг идей, анализ изображений. Qwen VLo работает как gpt-4o, она авторегрессионная (качество заметно хуже, но зато пока что абсолютно бесплатно). Протестировать можно здесь. См. видео 3


• Anthropic доверили Claude управлять мини-магазином — результат неоднозначный Claude Sonnet 3.7 месяц управлял вендинговым автоматом в офисе Anthropic. ИИ отвечал за закупки, ассортимент, ценообразование, учёт — даже принимал заказы. В плюсах — находил новых поставщиков, расширял ассортимент, сам пополнял запасы. Но и фейлов было полно: раздавал скидки и товары бесплатно, закупал по завышенным ценам, путал платёжные реквизиты, галлюцинировал (обещал лично доставлять заказы «в пиджаке и галстуке»). Итог — бизнес в минусе, но эксперименты продолжат, тем более что уже давно есть opus-4.0, который мог бы сделать и не наделать ошибок. Но цена у него сильно выше.


• OpenAI открыли API для Deep Research Теперь можно программно делать глубокие запросы к новым моделям Deep Research — o3-deep-research-2025-06-26 (максимальное качество) и o4-mini-deep-research-2025-06-26 (для задач с малой задержкой). То есть теперь это можно встраивать в свои проекты для ресёрча в интернете. Очень рекомендую обратить на это внимение! Документация


• MultiTalk — новая открытая lip sync модель MultiTalk генерирует видео с несколькими персонажами по аудио и тексту, поддерживает 15 секунд в 480p/720p, работает с промптами для управления персонажами, умеет генерировать мультики и синхронизирует губы с речью максимально точно. Особенно прикольно, что поддерживаются не только обычные голоса, но и пение, нестандартные стили, мультяшные герои. Подключается к ComfyUI, есть на GitHub/HuggingFace, См. видео 4


• Baidu открыли весь стек ERNIE 4.5 Китайцы выкатили в open source целую линейку моделей ERNIE 4.5 — от компактных до гигантских мультимодальных. Старшие версии уже догоняют DeepSeek V3 и GPT-4.1 по бенчмаркам, доступны и веса, и инструменты для тренировки, и inference. Тестировать бесплатно тут


• RuadaptQwen3-4B-Instruct — релиз адаптированной модели Русскоязычная версия Qwen3 ускорилась, а по метрикам даже опережает оригинал на ряде датасетов. Так что можно пробовать там, где важна локальная модель.


• В Британии стажёров и джунов стало меньше из-за ChatGPT Великобритания фиксирует падение спроса на начинающих специалистов на 32% с момента запуска ChatGPT. Теперь только 25% вакансий для выпускников и тех, кто без опыта. Совет от правительства: срочно учить AI, иначе будет сложно найти работу. Источник


• ByteDance запустил XVerse — text2image с продвинутым управлением атрибутами Теперь в XVerse можно создавать сложные сцены с множеством персонажей и детально настраивать внешний вид, позу, стиль каждого объекта. То есть можно закинуть фото 2-3 людей, и получить их на 1 фото. Но фото пока получаются пластиковыми, и есть только код. Примеры и код тут

repost

3

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь