🚀 AMD выпустила Primus-SaFE для стабильного обучения LLM
AMD представила Primus-SaFE — полный стек для надёжного обучения крупных моделей на кластерах GPU.
Платформа интегрирует кластеризацию на Kubernetes, интеллектуальное планирование задач и глубокую наблюдаемость. Primus-SaFE автоматизирует развёртывание инфраструктуры через Primus-Bootstrap, включая высокопроизводительное хранилище JuiceFS и реестр образов Harbor. Primus-Lens предоставляет единый дашборд для мониторинга GPU, памяти, сети и хода обучения. Система поддерживает отказоустойчивость: при сбое узла задача перезапускается на другом узле с последней контрольной точки. Preflight-проверки через Primus-Bench тестируют производительность и стабильность узлов до запуска задач.
Платформа масштабируется до 100 000 GPU и уже поддерживает многопрофильные очереди, топологически осознанное размещение и веб-интерфейсы на основе WebAssembly.