🔥 Alibaba выкатили Qwen 3 – целое новое семейство LLM

Тут полный зоопарк: от крошечной 0.6B до монструозной Qwen3-235B-A22B (это Mixture of Experts с 22B активных параметров). Всё открыто 👾

Что обещают: ▫️Флагман Qwen3-235B якобы не уступает топам вроде Gemini 2.5 Pro и Grok-3, особенно в программировании. ▫️ Qwen3-30B-A3B будто бы обходит QwQ-32B, будучи в 10 раз "легче" по активным параметрам. ▫️Даже мелкая Qwen3-4B по производительности сравнивается с Qwen2.5-72B.

Особенно радует фокус на программировании и агентных возможностях – то, что может пригодиться в работе.

Из интересных фишек – гибридный режим мышления. Модель может либо сразу дать ответ (/no_think), либо сначала "подумать" шаг за шагом (/think).

Поддерживают 119 языков (русский, конечно, в том числе), тренировали на горе данных (~36Т токенов).

Погонять можно уже сейчас: 👉🏻 Веб-демка 👉🏻 Модельки на Hugging Face

Мелкие модельки можно и локально запустить через Ollama, LMStudio и т.д. – самое то для экспериментов.

⚡️ Забустить канал 🚀

🔥 Alibaba выкатили Qwen 3 – целое новое семейство LLM
Тут полный зоопарк: от крошечной 0.6B до монструозной Qwen3-235B-A22B (это Mixture of Experts с 22B активных параметров) | Сетка — новая социальная сеть от hh.ru 🔥 Alibaba выкатили Qwen 3 – целое новое семейство LLM
Тут полный зоопарк: от крошечной 0.6B до монструозной Qwen3-235B-A22B (это Mixture of Experts с 22B активных параметров) | Сетка — новая социальная сеть от hh.ru
repost

45

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь