⚡ Автоскейлинг LLM с Ray и ROCm 7.0.0
AMD представила решение для масштабирования инференса LLM на своих GPU.
Решение объединяет Ray Serve с vLLM, ROCm 7.0.0 и SkyPilot. Ray Serve управляет числом реплик модели по нагрузке, а Ray Autoscaler добавляет GPU-узлы при нехватке ресурсов. На MI300X демонстрируется рост числа реплик с 1 до 8, снижение задержки и рост пропускной способности. SkyPilot расширяет автоскейлинг на несколько кластеров и облаков.
Поддержка Ray в ROCm 7.0.0 обеспечивает оптимизацию под GPU AMD.