Ян Лекун и коллеги представили TDV — метод self-supervised обучения видео без аугментаций
Ян Лекун и коллеги показали TDV — self-supervised подход для видео, где вместо привычных аугментаций модель учится на временных разностях. Идея довольно приземлённая: текущий кадр плюс сжатое движение должны предсказывать следующий латентный кадр. Для видео это звучит куда естественнее, чем очередной набор трюков с искажением данных.
Авторы пишут, что TDV обошёл DINO и iBOT в задачах оптического потока и стереоглубины. Ещё интереснее практическая часть: тяжёлый энкодер может работать только на ключевых кадрах, а промежуток достраивается в латентном пространстве. Если это хорошо масштабируется, у видео-моделей станет меньше причин полагаться на сложные аугментации ради хороших метрик.
Источник: gonzo-обзоры ML статей
Все новости: ai.popovs.tech
#MetaAI #GitHub #ComputerVision
В этом посте были ссылки, но мы их удалили по правилам Сетки