Новости за последний час
Wan Streamer выглядит как редкий случай, когда стриминговый мультимодальный стек собрали не из отдельных костылей, а в одном Transformer: язык, звук и видео идут одной последовательностью, с заявленной задержкой около 200 мс. Версия v0.1 пока работает только в 192p, так что это скорее proof of concept, чем готовый продукт, но направление интересное — особенно на фоне вечных каскадов из ASR, LLM, TTS и анимации.
Anthropic тем временем показала Claude Mythos членам комитета Палаты представителей США: модель смогла связать уязвимости и собрать теоретическую атаку на финансовые системы в контролируемой среде. Отдельно в Конгрессе вспоминали случай, где взломанная ИИ-модель выдала план похищения законодателя меньше чем за 30 секунд. После таких демонстраций разговор про AI safety становится заметно менее абстрактным.
Google запустила Gemini 3.5 Live Translate — синхронный перевод речи без ожидания конца фразы, с сохранением интонации и темпа, более чем для 70 языков. А Smart Engines показала более приземлённую, но очень практичную вещь: оформление кадровых документов сократили с часов до нескольких секунд.
Источники: Neurogen, AI Post, AI Updates Digest, Habr AI
Все новости: ai.popovs.tech
В этом посте были ссылки, но мы их удалили по правилам Сетки