🚀 llama.cpp получил менеджер моделей Появилась возможность динамически загружать и переключаться между моделями без перезапуска сервера. Режим роутера в llama

🚀 llama.cpp получил менеджер моделей

Появилась возможность динамически загружать и переключаться между моделями без перезапуска сервера.

Режим роутера в llama.cpp позволяет управлять несколькими GGUF-моделями одновременно. Каждая модель запускается в отдельном процессе — сбой одной не влияет на другие. Сервер автоматически обнаруживает модели в кэше или указанной папке. Модели загружаются по требованию, а при превышении лимита (по умолчанию4) старые выгружаются по принципу LRU. Можно управлять через API: запросы /models/load, /models/unload, /models и обычные OpenAI-совместимые вызовы с полем model. Поддерживаются глобальные и персональные настройки через preset-файлы.

Доступен автоматический и ручной контроль загрузки, идеально для A/B-тестирования и разработки.

#llama_cpp #model_management #local_llm #api #gguf #AI