⚡ Автоскейлинг LLM с Ray и ROCm 7.0.0 AMD представила решение для масштабирования инференса LLM на своих GPU. Решение объединяет Ray Serve с vLLM, ROCm 7.0.0 и SkyPilot

⚡ Автоскейлинг LLM с Ray и ROCm 7.0.0

AMD представила решение для масштабирования инференса LLM на своих GPU.

Решение объединяет Ray Serve с vLLM, ROCm 7.0.0 и SkyPilot. Ray Serve управляет числом реплик модели по нагрузке, а Ray Autoscaler добавляет GPU-узлы при нехватке ресурсов. На MI300X демонстрируется рост числа реплик с 1 до 8, снижение задержки и рост пропускной способности. SkyPilot расширяет автоскейлинг на несколько кластеров и облаков.

Поддержка Ray в ROCm 7.0.0 обеспечивает оптимизацию под GPU AMD.

#rocm #ray #skypilot #llm_inference #amd #aicloud