Kandinsky 5.0 Video Согласно данным лмарены, версия Kandinsky 5.0 Video Pro (19B) занимает первое место среди моделей с открытым кодом

Kandinsky 5.0 Video

Согласно данным лмарены, версия Kandinsky 5.0 Video Pro (19B) занимает первое место среди моделей с открытым кодом.

В общем зачете модель показывает паритет с Luma Ray 3 и Minimax Hailuo 2.3. Разница в ELO-рейтинге между ними составляет около 3 баллов при доверительном интервале в 21 балл, что позволяет говорить о сопоставимом качестве генерации. Облегченная версия Lite (2B) по результатам тестирования превзошла показатели первой версии Sora.

Модель построена на базе архитектуры Diffusion Transformer (DiT) с механизмом кросс-внимания на текстовые промпты.

Backbone: Архитектура CrossDiT (Diffusion Transformer) с 60 блоками. Она использует механизм NABLA (Neighborhood Adaptive Block-Level Attention), который позволяет эффективно обрабатывать длинные видеопоследовательности без экспоненциального роста вычислительных затрат. • VAE: Визуальный кодировщик на базе HunyuanVideo, который обеспечивает сжатие видео в 16 раз пространственно и в 4 раза временно, сохраняя при этом высокую четкость деталей. • Текстовые энкодеры: Используется связка из Qwen2.5-VL (для глубокого понимания контекста) и CLIP (для визуального соответствия). • Параметры генерации: * Разрешение: HD (1280x768). • Частота: 24 fps. • Длительность: 5 или 10 секунд.