🚀 AMD выпустила Primus-SaFE для стабильного обучения LLM

AMD представила Primus-SaFE — полный стек для надёжного обучения крупных моделей на кластерах GPU.

Платформа интегрирует кластеризацию на Kubernetes, интеллектуальное планирование задач и глубокую наблюдаемость. Primus-SaFE автоматизирует развёртывание инфраструктуры через Primus-Bootstrap, включая высокопроизводительное хранилище JuiceFS и реестр образов Harbor. Primus-Lens предоставляет единый дашборд для мониторинга GPU, памяти, сети и хода обучения. Система поддерживает отказоустойчивость: при сбое узла задача перезапускается на другом узле с последней контрольной точки. Preflight-проверки через Primus-Bench тестируют производительность и стабильность узлов до запуска задач.

Платформа масштабируется до 100 000 GPU и уже поддерживает многопрофильные очереди, топологически осознанное размещение и веб-интерфейсы на основе WebAssembly.

#amd #rocm #primus_safe #ai_training #gpu_cluster #mlops

🚀 AMD выпустила Primus-SaFE для стабильного обучения LLM
AMD представила Primus-SaFE — полный стек для надёжного обучения крупных моделей на кластерах GPU | Сетка — социальная сеть от hh.ru