🧪 ROCm MaxText: запуск тестов в двух режимах
AMD представила стратегию тестирования MaxText на ROCm GPU с поддержкой офлайн и облачных режимов.
В основе подхода — два режима тестов: отключенный (офлайн) и с полной интеграцией с облаком. Офлайн-режим с DECOUPLE_GCLOUD=TRUE исключает зависимости от Google Cloud, использует синтетические данные и ускоряет отладку. Облачный режим проверяет хранилище, диагностику и удалённые вызовы. Для обоих требуется собранный wheel Transformer Engine под архитектуру GPU (например, gfx950).
Тесты автоматически фильтруются по меткам: tpu_only, external_serving и другие исключаются из офлайн-прогонов. Генерируются HTML/CSV-отчёты и логи, пригодные для CI и анализа регрессий. Также доступен Docker-подход и пример синтетического обучения Llama2-7B.
Офлайн-тесты дают быструю обратную связь, но не заменяют полной валидации. Рекомендуется начинать с них, а затем выполнять периодические полные прогоны.