На прошлой неделе команда DeepSeek выпустила новую версию своей нашумевшей модели DeepSeek v4.
Если говорить кратко, то всё стало выше, сильнее, быстрее и, конечно же, дешевле. Впрочем, такой подход касается релизов всех языковых моделей. Однако важно понимать, что DeepSeek выпускает по-настоящему открытые модели, которые можно скачивать, устанавливать в свой контур, настраивать и использовать по своему усмотрению.
Что касается новой версии, то вот что показалось интересным:
- Доступны две версии (это уже классика): DeepSeek-V4-Pro и DeepSeek-V4-Flash: - DeepSeek-V4-Pro — 1.6 триллиона параметров, 1 млн токенов контекста и стоимость $0.145 за вход и $3.48 за выход на млн токенов. - DeepSeek-V4-Flash — 284 миллиарда параметров, 1 млн токенов контекста и стоимость $0.028 за вход и $0.28 за выход на млн токенов. - Если верить заявлениям, то DeepSeek-V4-Pro можно запустить на домашних видеокартах, например, на RTX 5090. Правда, такие карты в РФ стоят порядка 420 тыс. рублей, но всё же ИИ стал чуточку ближе к локальному развертыванию. - Улучшено сжатие KV-кэша за счёт CSA и HCA. Если не вдаваться в подробности самих алгоритмов сжатия CSA и HCA, то суть в том, что модель теперь потребляет меньше памяти и работает быстрее. - Добавлен математический фреймворк mHC, который позволяет экономить на обучении модели. DeepSeek v4 с 1T параметров и mHC потребовали всего 6.7% ресурсов по сравнению с предыдущей версией модели. - Новые уровни рассуждений: 1. Non-think: Быстрый ответ для простых вопросов. 2. Think High: Глубокий анализ для сложных задач. 3. Think Max: Максимальная декомпозиция. В этом режиме разработчики буквально заставляют модель «тестировать» свою логику и проверять все граничные случаи. - Внедрили механизм Post-training. Если кратко, то: - Обучили 10 моделей-экспертов в определённых областях. - Взяли пустую модель (ученик) и заставили её отвечать на вопросы. - Те самые 10 экспертов также начинают давать экспертные ответы. - Модель-ученик начинает подгонять свои веса и ответы под ответы экспертов
В целом это все. попробовать можно или через чат или через API
• DeepSeek V4: 1T Parameter AI Model Guide | Independent DeepSeek Resource Hub - анонс • DeepSeek V4 Preview Release | DeepSeek API Docs - дока на API • DeepSeek_V4.pdf · deepseek-ai/DeepSeek-V4-Pro at main - tech report на huggingface
· 6 ч
5090, но нужно иметь гигантское количество RAM. Это же MoE...
ответить
коммент удалён
· 5 ч
Про это не подумал честно голвоя) но вооьще они вот пишут DeepSeek-V4-Pro: 1.6T total / 49B active params, может неактивные параметры как-то жмут? Не копал просто так глубоко
ответить
ответ удалён
· 5 ч
Дак я и говорю - активные слои в VRAM, неактивные - в RAM.
ответить
ответ удалён