Сергей Самсонов пишет:

Выбор inference backend для работы с LLM локально

Допустим, мы решили запустить LLM локально — просто поэкспериментировать или использовать как помощника в разработке с агентами. Сразу важно понимать, что для этого нужны серьёзные ресурсы: современный процессор и, желательно, не менее 32 ГБ оперативной памяти. Конечно, можно обойтись и меньшим объёмом для совсем маленьких моделей, но для реальной работы оптимально иметь около 64 ГБ чтобы работать одной моделью побольше или парой среднего размера и еще оставались ресурсы на функционирование системы и других инструментов.

Вот пример размеров некоторых актуальных моделей:

gpt-oss:20b - 13 GB
qwen3:30b - 18 GB
qwen3-coder:30b - 18 GB
deepseek-r1:32b - 19 GB

Объем модели в гигабайтах напрямую влияет на потребление системы. Если модель занимает, скажем, 18 ГБ, то примерно столько же потребуется оперативной памяти — плюс немного запас на рабочие данные, кеш и прочие потребности самой системы.

Второй вопрос - это выбор inference backend через который мы будем модель использовать и тут среди множества решений выделяются четырe проверенных бэкенда: llama.cpp, Ollama, LM Studio и Lemonade (для Ryzen AI серии процессоров). Каждый из них — хороший выбор, но они служат разным потребностям.

llama.cpp — это своего рода фундамент. Лёгкая, простая библиотека на C/C++, позволяющая работать на CPU, GPU (CUDA, Vulkan, Metal) и даже гибридно, соединяя CPU и GPU. Она поддерживает quant-модели (2–8 бит), обеспечивает максимальную производительность при достаточном контроле. Минус — отсутствие GUI и необходимость знания командной строки.

Ollama — надстройка над llama.cpp, предоставляющая удобный интерфейс: как CLI, так и сервер, позволяющий скачивать модели, запускать их и управлять через простые команды. Всё это реализовано поверх llama.cpp, и поддерживается quant-формат GGUF. Минус — немного меньшая скорость по сравнению с голым llama.cpp, но значительно больше удобства.

LM Studio — приложение с графическим интерфейсом, предназначенное для macOS и Windows. Оно тоже работает поверх llama.cpp и обеспечивает быструю загрузку и запуск моделей (например, LLaMA, Qwen, Gemma и других) без сложных настроек. Особенно интересно тем, у кого есть Ryzen AI — с Vulkan или ROCm-backend скорость заметно выше.

Lemonade — открытый SDK и сервер от AMD, оптимизированный для их Ryzen AI (300-серия). Он поддерживает ONNX-модели через OGA (OnnxRuntime GenAI) и позволяет запускать LLM либо на NPU, либо гибридно (NPU + iGPU). Это мощное решение, если у вас есть подходящее железо. Можно также выбрать backend llama.cpp с Vulkan или ROCm. Главный минус — фокус на Windows 11 и AMD-платформы.

Говоря о скоростях на машине с 64 GB RAM: llama.cpp выдаёт лучшую производительность при GPU-offload или гибриде. Ollama чуть медленнее, но удобнее. LM Studio на AMD с Vulkan или ROCm может быть очень быстрым и комфортным благодаря GUI. Lemonade же даёт максимальную локальную скорость за счёт NPU и гибридного режима.

Что касается использования CPU, GPU, NPU и гибридных схем: llama.cpp работает на CPU, GPU и допускает CPU+GPU; Ollama — поверх этого, тоже гибрид; LM Studio задействует llama.cpp-бэкэнды, включая Vulkan/ROCm на GPU; Lemonade же использует NPU-only или гибрид OGA-режим и поддерживает llama.cpp-backend при желании.

В итоге: llama.cpp — для тех, кто ценит скорость и контроль. Ollama — если нужна простота и API. LM Studio — если хочется всё видеть и нажимать, особенно на macOS или Windows. Lemonade — идеал для владельцев Ryzen AI, которым нужна максимальная локальная производительность. Что касается выбора операционной системы, тот тут ситуация сильно зависит от поддержки вашего оборудования. В среднем - Windows и MacOS больше подходят для работы с LLM на данный момент.