🚀 Text-to-Image за 24 часа и $1500
Photoroom обучили конкурентный text-to-image всего за 24 часа на 32 H200 (~$1500) — это доказывает, что пиксельное обучение без VAE стало практичным. Для команд это сигнал: собрать свой diffusion-стек теперь реально без миллионных бюджетов — пора пересматривать roadmap.
Модель тренировали сразу в pixel-space с x-prediction, без VAE. Стартовали с 512px и дообучали на 1024px, контролируя длину последовательности через patch 32. Добавили LPIPS (0.1) и DINOv2 (0.01) поверх diffusion-лосса, применяя их ко всем шумам. Для ускорения шагов использовали token routing TREAD.
Поле резко демократизируется: грамотная инженерия заменяет масштаб. Такие рецепты могут снизить барьер входа для стартапов и нишевых моделей.
#diffusion #text2image #ai_training #opensource #generativemodels