🚀 Ray Serve получает асинхронный вывод и кастомное масштабирование Ray Serve анонсировал новые функции для гибкой и масштабируемой подачи ИИ-моделей

🚀 Ray Serve получает асинхронный вывод и кастомное масштабирование

Ray Serve анонсировал новые функции для гибкой и масштабируемой подачи ИИ-моделей.

Добавлены асинхронный вывод, кастомная маршрутизация запросов, пользовательское автоскейлинг и внешнее управление масштабированием. Теперь можно обрабатывать долгие задачи (транскрибация, видео) без таймаутов, направлять запросы по кастомным правилам (например, кэш-аффинитет) и масштабировать не по нагрузке, а по заданным метрикам — задержкам, глубине очереди или GPU-нагрузке. Также можно управлять числом реплик через внешние скрипты.

Компании, такие как Fano AI и Huawei, уже используют эти функции для сложных пайплайнов с аудио и LLM.

#ray #ray_serve #mlops #ai_infra #autoscaling #async_inference