🚀 AMD запустила отказоустойчивое обучение без чекпоинтов
AMD представила интеграцию TorchFT с TorchTitan для отказоустойчивого LLM-обучения на GPU MI325X.
Архитектура делит кластер на независимые реплицированные группы с FSDP2/TP/PP внутри и FT-DDP между ними. При сбое одной группы остальные продолжают обучение. Восстановление происходит через TorchFT Lighthouse — лёгкий координатор в Kubernetes, управляющий кворумом и синхронизацией. Отказавший узел подтягивает веса с работающего пира, а не с медленного хранилища.
В тестах на 4 узлах с MI325X время загрузки состояния — 0,56 с, а задержка чекпоинта — ~1 мс.