🚀 AMD запустила отказоустойчивое обучение без чекпоинтов

AMD представила интеграцию TorchFT с TorchTitan для отказоустойчивого LLM-обучения на GPU MI325X.

Архитектура делит кластер на независимые реплицированные группы с FSDP2/TP/PP внутри и FT-DDP между ними. При сбое одной группы остальные продолжают обучение. Восстановление происходит через TorchFT Lighthouse — лёгкий координатор в Kubernetes, управляющий кворумом и синхронизацией. Отказавший узел подтягивает веса с работающего пира, а не с медленного хранилища.

В тестах на 4 узлах с MI325X время загрузки состояния — 0,56 с, а задержка чекпоинта — ~1 мс.

#AMD #LLM #PyTorch #fault_tolerance #ROCm

🚀 AMD запустила отказоустойчивое обучение без чекпоинтов
AMD представила интеграцию TorchFT с TorchTitan для отказоустойчивого LLM-обучения на GPU MI325X | Сетка — социальная сеть от hh.ru