Kandinsky 5.0 Video
Согласно данным лмарены, версия Kandinsky 5.0 Video Pro (19B) занимает первое место среди моделей с открытым кодом.
В общем зачете модель показывает паритет с Luma Ray 3 и Minimax Hailuo 2.3. Разница в ELO-рейтинге между ними составляет около 3 баллов при доверительном интервале в 21 балл, что позволяет говорить о сопоставимом качестве генерации. Облегченная версия Lite (2B) по результатам тестирования превзошла показатели первой версии Sora.
Модель построена на базе архитектуры Diffusion Transformer (DiT) с механизмом кросс-внимания на текстовые промпты.
Backbone: Архитектура CrossDiT (Diffusion Transformer) с 60 блоками. Она использует механизм NABLA (Neighborhood Adaptive Block-Level Attention), который позволяет эффективно обрабатывать длинные видеопоследовательности без экспоненциального роста вычислительных затрат. • VAE: Визуальный кодировщик на базе HunyuanVideo, который обеспечивает сжатие видео в 16 раз пространственно и в 4 раза временно, сохраняя при этом высокую четкость деталей. • Текстовые энкодеры: Используется связка из Qwen2.5-VL (для глубокого понимания контекста) и CLIP (для визуального соответствия). • Параметры генерации: * Разрешение: HD (1280x768). • Частота: 24 fps. • Длительность: 5 или 10 секунд.
Разработчики опубликовали веса моделей, исходный код и технический отчет.
- Веса доступны на Hugging Face (kandinskylab).
- Исходный код и примеры использования находятся в репозитории kandinsky-5.
- Подробности обучения и архитектуры описаны в статье arXiv:2511.14993.