⚡ Автоскейлинг LLM с Ray и ROCm 7.0.0

AMD представила решение для масштабирования инференса LLM на своих GPU.

Решение объединяет Ray Serve с vLLM, ROCm 7.0.0 и SkyPilot. Ray Serve управляет числом реплик модели по нагрузке, а Ray Autoscaler добавляет GPU-узлы при нехватке ресурсов. На MI300X демонстрируется рост числа реплик с 1 до 8, снижение задержки и рост пропускной способности. SkyPilot расширяет автоскейлинг на несколько кластеров и облаков.

Поддержка Ray в ROCm 7.0.0 обеспечивает оптимизацию под GPU AMD.

#rocm #ray #skypilot #llm_inference #amd #aicloud

⚡ Автоскейлинг LLM с Ray и ROCm 7.0.0
AMD представила решение для масштабирования инференса LLM на своих GPU.
Решение объединяет Ray Serve с vLLM, ROCm 7.0.0 и SkyPilot | Сетка — социальная сеть от hh.ru