🧠 Как мы нашли утечку памяти в vLLM

Команда Mistral AI обнаружила утечку памяти в vLLM при использовании disaggregated serving.

Утечка в 400 МБ/мин возникала только в сложной конфигурации: модель Mist

читать далее
🧠 Как мы нашли утечку памяти в vLLM
Команда Mistral AI обнаружила утечку памяти в vLLM при использовании disaggregated serving | Сетка — социальная сеть от hh.ru