Олег Булыгин пишет:

🔥 Alibaba выкатили Qwen 3 – целое новое семейство LLM

Тут полный зоопарк: от крошечной 0.6B до монструозной Qwen3-235B-A22B (это Mixture of Experts с 22B активных параметров). Всё открыто 👾

Что обещают: ▫️Флагман Qwen3-235B якобы не уступает топам вроде Gemini 2.5 Pro и Grok-3, особенно в программировании. ▫️ Qwen3-30B-A3B будто бы обходит QwQ-32B, будучи в 10 раз "легче" по активным параметрам. ▫️Даже мелкая Qwen3-4B по производительности сравнивается с Qwen2.5-72B.

Особенно радует фокус на программировании и агентных возможностях – то, что может пригодиться в работе.

Из интересных фишек – гибридный режим мышления. Модель может либо сразу дать ответ (/no_think), либо сначала "подумать" шаг за шагом (/think).

Поддерживают 119 языков (русский, конечно, в том числе), тренировали на горе данных (~36Т токенов).

Погонять можно уже сейчас: 👉🏻 Веб-демка 👉🏻 Модельки на Hugging Face

Мелкие модельки можно и локально запустить через Ollama, LMStudio и т.д. – самое то для экспериментов.

⚡️ Забустить канал 🚀

🔥 Alibaba выкатили Qwen 3 – целое новое семейство LLM
Тут полный зоопарк: от крошечной 0.6B до монструозной Qwen3-235B-A22B (это Mixture of Experts с 22B активных параметров) | Сетка — социальная сеть от hh.ru

еще контент автора

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка