⚡️ MoE делают LLM быстрее без потери качества

Mixture of Experts дают качество 20B+ моделей при скорости как у 3–4B — это прорыв в эффективности и снижении стоимости инференса. Для разработчиков это значит: можно запускать «большие» модели на более дешёвом железе уже сейчас.

В MoE часть FFN-слоёв заменяется набором экспертов, а роутер активирует лишь несколько на токен. Например, 21B‑модель с 32 экспертами использует ~3.6B активных параметров на шаг. Скорость зависит от активных весов, а не от общего размера.

Тренировочно MoE выигрывают по FLOPs, поэтому Qwen 3.5, GLM‑5 и DeepSeek делают ставку на sparse‑архитектуру. Похоже, dense‑масштабирование упирается в потолок.

#llm #moe #transformers #ai_infra #opensource

⚡️ MoE делают LLM быстрее без потери качества
Mixture of Experts дают качество 20B+ моделей при скорости как у 3–4B — это прорыв в эффективности и снижении стоимости инференса | Сетка — социальная сеть от hh.ru