🚀 NVIDIA выпустила Nemotron 3 Nano — новый стандарт для агентных моделей
NVIDIA представила Nemotron 3 Nano 30B — легковесную, но мощную модель для запуска AI-агентов.
Модель сочетает архитектуру Mamba-Transformer с MoE (Mixture of Experts), что обеспечивает высокую скорость и точность. Всего 31,6 млрд параметров, но активны лишь ~3,6 млрд на токен — за счёт этого достигается до 3,3× превосходства в пропускной способности перед аналогами. Поддерживается контекст до 1 млн токенов, идеальный для многошаговых рабочих процессов. Есть режимы «мышления» ON/OFF и контроль над объёмом рассуждений, что помогает контролировать затраты.
Модель открыта: доступны веса, датасеты, рецепты обучения и фреймворки. Включены 3 трлн токенов для претрейнинга и 13 млн пост-тренировочных примеров. Также представлен NeMo Gym — библиотека с открытыми RL-средами для дообучения агентов.