3 простых шага: Как развернуть LLM на своём ноутбуке без GPU

Малик Хубиев

ML-инженер в SSP SOFT

· 21.05

3 простых шага: Как развернуть LLM на своём ноутбуке без GPU

Гениальная идея может прийти: 1. Когда глушат мобильный интернет. 2. Когда летишь в самолёте над Атлантикой. 3. В горах, пустынях Африки и в самых отдалённых уголках планеты.

В этом посте про то как запустить: [ Mistral7B | 4+ ГБ на диске | 8+ ГБ оперативки ] И независимо общаться с нейросетями без ограничений по токенам. В самом конце будет ссылка на репозиторий с простым чек-листом от начала до конца.

Способ 1. Быстрый старт с ollama. Одна команда в терминале, модель скачивается сама, интерактивный чат сразу готов. Преимущества: - «Запустил — общаюсь — забыл» это то, что тебе нужно - Ты впервые запускаешь LLM локально и хочешь понять, что это такое - Нужен быстрый чат с моделью без настройки параметров

Способ 2. Тотальный контроль и масштаб с llama.cpp. Скрипты в репозитории читают конфигурацию из JSON, запускают сервер и возвращают потоковый ответ. Преимущества: - Интеграция с проектом - Глубокая настройка параметров и управление ресурсами - Потоковая генерация и отображение в реальном времени

Чек-лист-репозиторий как развернуть нейросеть на своём ПК: https://github.com/malikkhubiev/llama.cpp-mistral.7b

Инсайт: Всё чаще мне приходится разрабатывать проект по внедрению мощных нейросетей on-premise (на своих серверах) для крупного бизнеса. Локальная развёртка LLM - ваш первый шаг к серьёзным проектам.

Будущее AI — ближе к вашему серверу, чем кажется.

#AI #LLM #Mistral #Business #OnPremise

3 простых шага: Как развернуть LLM на своём ноутбуке без GPU | Сетка — социальная сеть от hh.ru

1 репост

494

29 комментов

Максим Никитин

· 03.06

Локальные модели имеет смысл запускать в случае если железо подходящее, без GPU только для ознакомления. Либо как примитивный FAQ-бот для приложения но здесь нужен RAG с FAISS или любой другой векторной бд. Основной минус компактных локальных модели без GPU это низкая скорость.

Малик Хубиев

· 05.06

С точки зрения скорости FAISS - шикарное решение.

Какая локалка тебе прям нравится на GPU?

Максим Никитин

· 05.06

Китайские локальные модели Qwen

Малик Хубиев

· 05.06

Китайцы хороши в коде и математике.

По данным тестов 2026 года, Qwen 3 7B набирает 76.0% в бенчмарке HumanEval (проверка качества кода), пока Mistral 7B показывает 68.2%.

Максим Цепков

· 27.05

У меня на мобильном телефоне Gemma шустро работает. И с картинками, и с голосом справляется. Как бекап на случай оффлайна тотального

Малик Хубиев

· 28.05

Красавчик, что поделился, хорошая модель.

Дай свою оценку её голосовому распознаванию от 1 до 10.

Справляется ли с аббревиатурами и английскими названиями внутри текста на русском?

Максим Цепков

· 28.05

У меня в деревне благо интернет ещё есть. Так что я плотно не пользовался. Только убедился что NPU чипа телефонного хватает.

Малик Хубиев

· 29.05

Я на несколько дней уехал в деревню и теперь не понимаю как вернуться в город)

Работа, соцсети и нейросети - при этом в тишине, с чистым воздухом и на природе.

Владимир Вашурин

· 26.05

Был макпро 8 озу i7 2,6 пытался запустить модели qwen 2.4 code 7b и выше сжатием - всё печально, файловую стуктуру не видят, только копипаст… Взял другой макпро с 16озу 2,8… Один фиг превращаешся в бобра грызущего столешницу в ожидании ответа на Привет! Лучше чем Cursor или OpenCode пока не нашёл для себя ничего.

Малик Хубиев

· 26.05

Cursor - легенда, но там поверх модели архитектура:

• Repo indexing Просканить весь проект и построить «карту» кода: какие есть файлы, классы, функции, зависимости

• Context retrieval Уметь автоматически находить те куски кода, которые нужны для задачи, а не пихать модели весь проект целиком.

• Diff management Точечно вносить изменения в код, а не переписывать файл полностью после каждого запроса.

• Prompt compression Сжимать и пересобирать контекст так, чтобы модель не забывала проект и не умирала от огромного количества токенов.

• Tool calling Давать модели инструменты: поиск по проекту, чтение файлов, запуск команд, git, терминал, тесты и т.д.

• Caching Кэшировать результаты, чтобы не анализировать один и тот же код заново при каждом сообщении.

Локальная моделька полезна для простых ответов в чате пользователям как LightRAG среди RAGов.

Владимир Вашурин

· 27.05

Даже простые ответы будут очень долгими и безсвязными. При этом бук будет шуметь и сильно потеть. Даже если наступит апок-лис или кончется Интернет, я бы не стал этим пользоваться, даже за консервы. Поэтому как сказал классик - Можно! А зачем?

Малик Хубиев

· 27.05

Ахах, договорились! При всеобщей разрухе меняю Cursor на консервы)

Алексей Кухновец

· 25.05

Я пробовал свежий Мистрал 180B на серверном CPU с ddr4 ecc и вышло 0.4 токена в секунду. Ждал ответа на "привет" фиг знант сколько. Запустил на анализ репозитория и после 2 часов ожидания выключил.

Малик Хубиев

· 26.05

Твой комментарий может быть очень полезен людям:

1. 180 миллиардов параметров даже в 4-bit это примерно 90–110 ГБ веса в fp16 — вообще около 360 ГБ+

CPU не может держать это в кэше, поэтому постоянно: тянет веса из RAM, гоняет их через шину памяти.

А DDR4 ECC — это обычно: 50–100 GB/s bandwidth на сокет

Даже самая быстрая автомойка в мире не сможет обслужить много машин, если дорога к ней узкая и с ограничением скорости.

2. Поэтому на CPU лучше 7-14B параметров или MoE, но только потому что для инференца будет задействоваться только часть параметров (но тяжесть останется, потому что спящие эксперты лежат в памяти и KV-кеш никуда не девается)

· 23.05

Ollama

Малик Хубиев

· 24.05

Хороший выбор

· 24.05

Ну спасибки :)

Mivarn Swe

· 22.05

Шагам научились. А результат у людей будет никакой. Mistral7B простая и примитивная модель. Каждый уже пробовал на себе бесплатные Грок, ГПТ, Gemini и тп. После них локальные модели для большинства будут демо игрушками. А топовые локальные модели только для ребят с норм оперативой и GPU

Малик Хубиев

· 22.05

Брат, это для тех, кто не попробовал. Если не можешь пользоваться топовой, без интернета какой-то анализ идеи лучше чем никакой.

Максим Зеленский

· 22.05

Что-нибудь кроме мультяшного себя любимого с машинками получается?

Mivarn Swe

· 22.05

Какого мультяшного себя? Там пара абзацев текста будут создаваться 30-60 секунд. А тут картинка )

Максим Зеленский

· 22.05

То есть, ничего не получилось?

Mivarn Swe

· 22.05

Я про то, что эта модель может выдавать только текстовый результат. И то медленный и простой. Для того чтобы локально создавать картинки, нужно железо значительно мощнее, чем описано в статье

Малик Хубиев

· 22.05

Модель текстовая, пишет текст и код. Мультяшную картинку сделал ChatGPT.

Какие твои любимые нейросети?

Малик Хубиев

· 23.05

Кстати, твой пост powerlabs sport nutrition выглядит шикарно.

ChatGPT в ближайшие годы даже близко ничего похожего не сможет сделать.

Максим Зеленский

· 23.05

Благодарю, брат

Малик Хубиев

· 22.05

Русский язык. llama.cpp: проблемы с русским языком. ollama: с русским всё хорошо)

Алексей Кухновец

· 25.05

У ollama llama.cpp под капотом

Малик Хубиев

· 26.05

100%

еще контент автора

Малик Хубиев

ML-инженер в SSP SOFT

3 простых шага: Как развернуть LLM на своём ноутбуке без GPU

еще контент автора

войдите, чтобы продолжить

мы не знаем, безопасна ли ссылка