🚀 llama.cpp получил менеджер моделей

Появилась возможность динамически загружать и переключаться между моделями без перезапуска сервера.

Режим роутера в llama.cpp позволяет управлять несколькими GGUF-моделями одновременно. Каждая модель запускается в отдельном процессе — сбой одной не влияет на другие. Сервер автоматически обнаруживает модели в кэше или указанной папке. Модели загружаются по требованию, а при превышении лимита (по умолчанию4) старые выгружаются по принципу LRU. Можно управлять через API: запросы /models/load, /models/unload, /models и обычные OpenAI-совместимые вызовы с полем model. Поддерживаются глобальные и персональные настройки через preset-файлы.

Доступен автоматический и ручной контроль загрузки, идеально для A/B-тестирования и разработки.

#llama_cpp #model_management #local_llm #api #gguf #AI

🚀 llama.cpp получил менеджер моделей
Появилась возможность динамически загружать и переключаться между моделями без перезапуска сервера.
Режим роутера в llama | Сетка — социальная сеть от hh.ru