DeepSeek тихой сапой выпустил новую модель DeepSeek-V3.1
685 миллиардов параметров, 128 000 токенов контекста, поддержка разных режимов точности, гибридной архитектура, объединяющая функции чата, логического рассуждения и программирования. Производительность на уровне последних моделей OpenAI и Anthropic. И сразу сделали её доступной на Hugging Face.
Ни громких презентаций, ни корявых графиков 😂 в стиле OpenAI. Скромно, просто и со вкусом.
Пара слов о режимах точности — это даёт разработчикам свободу: можно настроить систему так, чтобы она максимально эффективно работала на доступном оборудовании.
Главный прорыв DeepSeek-V3.1 — сбалансированная «гибридная архитектура», объединяющая возможности чата, логического рассуждения и программирования в одной модели. Внутри системы есть специальные токены, отвечающие за поиск в интернете в реальном времени и за процессы «мышления».
В тесте по программированию Aider-Non-Reasoning SOTA модель DeepSeek-V3.1 показала 71,6% — на одном уровне с Claude Opus 4 от Anthropic и совсем немного уступая новейшим моделям от OpenAI. При этом выполнение полной задачи с помощью DeepSeek стоило всего около $1 — в 68 раз дешевле, чем у конкурентов.
💬 Не так давно вышла модель Claude 4 от Anthropic и совсем недавно — ChatGPT 5 от OpenAI, которую всё настраивают и настраивают. И новая китайская открытая модель, сопоставимая по производительности с флагманскими, вышла в очень подходящее время. Снова утёрли нос коммерческим бизнес-моделям!
⚡ @neuro_man
#НейроЧеловек #НейроАрт #НейроКалендарь
· 20.08
они еще втихую дообучают ее, на днях она(нейросеть) сказала мне что знания у нее по июнь 2024, хотя буквально 2-3 мес назад были по январь 2023
ответить
еще контент автора
еще контент автора
войдите, чтобы увидеть
и подписаться на интересных профи