🎮 Micro-World: AMD выпустила open-source world models
AMD представила Micro-World — первые открытые интерактивные модели для генерации видео по действиям.
Модели T2W и I2W построены на базе Wan2.1 и управляются с помощью клавиш и мыши. Данные собраны из Minecraft с учётом временной согласованности действий. Архитектура включает отдельный модуль обработки действий: дискретные (клавиши) и непрерывные (мышь) кодируются отдельно, а внедряются через adaLN (I2W) или ControlNet (T2W). Используется двухэтапное обучение с LoRA для переноса знаний в open-domain.
Micro-World превосходит Oasis по качеству видео: FVD ↓ до 175 и точность действий ↑ до 72,2%.