🚀 Ray Serve получает асинхронный вывод и кастомное масштабирование
Ray Serve анонсировал новые функции для гибкой и масштабируемой подачи ИИ-моделей.
Добавлены асинхронный вывод, кастомная маршрутизация запросов, пользовательское автоскейлинг и внешнее управление масштабированием. Теперь можно обрабатывать долгие задачи (транскрибация, видео) без таймаутов, направлять запросы по кастомным правилам (например, кэш-аффинитет) и масштабировать не по нагрузке, а по заданным метрикам — задержкам, глубине очереди или GPU-нагрузке. Также можно управлять числом реплик через внешние скрипты.
Компании, такие как Fano AI и Huawei, уже используют эти функции для сложных пайплайнов с аудио и LLM.
#ray #ray_serve #mlops #ai_infra #autoscaling #async_inference