🔧 Исправляем текст в AI-видео с помощью RL
Исследователи AMD применили метод Flow-GRPO для точной генерации текста в AI-видео через дообучение на платформе ROCm.
Метод использует онлайн-обучение с подкреплением (RL), где модель генерирует кадры, а текст оценивается через OCR. За точное совпадение с промптом начисляется вознаграждение. Ключевой шаг — адаптация ODE-моделей (Wan) под стохастические SDE для совместимости с GRPO. Также применяется сокращение шагов денойзинга на обучении, что снижает вычислительные затраты. Техника улучшает читаемость надписей на видео без потери качества.
Wan2.1 14B после RL-дообучения поднял OCR-оценку с 0.55 до 0.79; Wan2.2 5B — с 0.32 до 0.68.
#ai_video #reinforcement_learning #rocm #amd #text_generation #flow_grpo