🚀 Новые горизонты для больших языковых моделей на домашних устройствах! Внедрение DeepSeek R1 и QwQ 32B стало настоящим прорывом в запуске передовых больших языковых моделей (LLM) на обычных домашни...

🚀 Новые горизонты для больших языковых моделей на домашних устройствах!

Внедрение DeepSeek R1 и QwQ 32B стало настоящим прорывом в запуске передовых больших языковых моделей (LLM) на обычных домашних устройствах. Несмотря на то, что потребительское оборудование становится всё мощнее, существующие решения по-прежнему требуют кластеров графических процессоров и большого объёма оперативной памяти, что недоступно для большинства пользователей.

Что такое prima.cpp?

Умельцы разработали prima.cpp — распределённую реализацию llama.cpp, которая позволяет запускать LLM-модели уровня 70B на ваших повседневных устройствах: 💻 ноутбуках, 🖥 настольных компьютерах, 🖥 телефонах и планшетах (с графическим процессором или без него). С помощью prima.cpp вы можете запускать такие модели, как QwQ-32B, Qwen 2.5-72B, Llama 3-70B или DeepSeek R1 70B прямо из вашего локального домашнего кластера!

Преимущества использования prima.cpp:

Низкое потребление памяти: Поддержка нагрузки на память ниже 10%, что позволяет запускать очень большие модели без зависаний.
Скорость: Построен на основе llama.cpp, но в 15 раз быстрее! На слабых устройствах QwQ-32B генерирует 11 токенов в секунду, а Llama 3-70B — 1,5 токена в секунду. Это сопоставимо со скоростью приложений для прослушивания аудиокниг.
Конфиденциальность: Общение в личных чатах без опасений за безопасность ваших данных.

Возможности для мощных устройств:

Если у вас более производительное оборудование, вы можете открыть для себя ещё больше возможностей, включая запуск агентов LLM прямо у себя дома!

Ключевые особенности prima.cpp:

Разнородные, малоресурсные, кроссплатформенные кластеры (например, домашние устройства, подключённые по Wi-Fi)
Квантование (Q4K и IQ1)
Смешанные вычисления на процессоре / GPU
Выгрузка диска
Параллельность трубопроводов и колец с предварительной выборкой
Автоматическое распределение рабочей нагрузки

Код с открытым исходным кодом доступен по адресу: prima.cpp на GitHub.

Не упустите возможность протестировать эти новшества и запустить LLM на своих устройствах! Если у вас есть вопросы или вы хотите поделиться своим опытом, пишите в комментариях! 💬

#news #ИИ #большиеязыковыемодели #разработка #prima_cpp #DeepSeek #QwQ