🦾 Google выпустила ИИ быстрее чтения: 1000+ ток/секунду

10 июня 2026 года Google DeepMind выкатила DiffusionGemma-26B-A4B-it. До этого все большие языковые модели работали как пишущая машинка — слово за словом, токен за токеном (токен — это маленький кусочек текста). Новая модель ломает традицию: она берёт шум и за несколько проходов превращает его в готовый абзац, как это делают нейросети для картинок.

Это первая открытая диффузионная LLM в семействе Gemma, и она отдана сообществу под лицензией Apache 2.0.

⚡️ Контраст: скорость против привычной логики - Модель не идёт слева направо, а сразу создаёт блок из 256 токенов, потом чистит шум. Это переносит нагрузку с памяти на вычисления, поэтому GPU перестаёт простаивать. - На одном NVIDIA H100 она выдаёт больше 1000 токенов в секунду, на GeForce RTX 5090 — больше 700. Это примерно в 4 раза быстрее обычной Gemma. При этом из 26 млрд параметров (настроек нейросети) активны только 3,8 млрд, и в квантованном виде модель влезает в 18 ГБ видеопамяти — уровень топовой потребительской карты.

🤯 А если бы текст рождался целиком, а не по буквам? - Глубокая мысль: second-order эффект — локальные инструменты меняются полностью. Редактор кода сможет переписать функцию мгновенно, потому что модель видит весь блок сразу и правит ошибки внутри него, а не ждёт конца строки. - Неочевидный вывод: диффузия делает ИИ не предсказателем следующего слова, а скульптором. Сначала глыба шума, потом отсечение лишнего. Поэтому она неожиданно сильна там, где нужна целостность — правка текста, математика, код, даже последовательности аминокислот.

⚠️ Важные оговорки: хайп не отменяет физику - Как это влияет на нас сегодня: для облачных чат-ботов с тысячами запросов авторегрессия всё ещё выгоднее — у диффузии выше время до первого токена, ведь первый кусочек появляется только когда готов весь блок. Зато для твоего локального copilot на RTX это уже почти нулевая задержка. - Ограничения: качество пока ниже, чем у Gemma 4. На тесте знаний MMLU Pro — 77,6% против 82,6%, на коде тоже проседает. И на Apple Silicon ускорения почти нет, потому что там узкое место — память, а не вычисления.

💡 Это не просто быстрая модель, это смена парадигмы. DiffusionGemma показывает, что будущее ИИ — не в бесконечном дописывании, а в мгновенном мышлении блоками. Мы привыкли ждать, пока нейросеть «подумает», а теперь она будет думать как мы — сразу картиной, а потом шлифовать детали. И раз код открыт, гонка за локальный сверхбыстрый ИИ только началась, и всё самое интересное ещё впереди.

👇 Ты бы променял идеальную точность на скорость в 4 раза для своего рабочего ИИ? 👇

#DiffusionGemma #GoogleDeepMind #ИИ #нейросети #opensource #технологии #будущее #AI #LLM #локальныйИИ