🤖 AMD запустила тонкую настройку VLM для роботов
AMD представила метод тонкой настройки зрительно-языковых моделей (VLM) на GPU с помощью ROCm и LoRA.
Решение использует OpenCLIP и набор Enterprise AI Suite для эффективной адаптации моделей под задачи робототехники. Вместо полной дообучки обновляются лишь небольшие LoRA-слои, что снижает потребление памяти и ускоряет процесс. Настройка происходит через Kubernetes, поддерживается контейнерная сборка и Helm-чарты. В качестве данных — датасет BridgeData V2 с инструкциями для роботов.
Дообученная модель снизила loss с 4.77 до 0.42, а уверенность в правильном ответе выросла до 99.99%. Веса LoRA занимают всего несколько МБ против нескольких ГБ у полной модели.