Новости AI пишет:

Ян Лекун и коллеги представили TDV — метод self-supervised обучения видео без аугментаций

Ян Лекун и коллеги показали TDV — self-supervised подход для видео, где вместо привычных аугментаций модель учится на временных разностях. Идея довольно приземлённая: текущий кадр плюс сжатое движение должны предсказывать следующий латентный кадр. Для видео это звучит куда естественнее, чем очередной набор трюков с искажением данных.

Авторы пишут, что TDV обошёл DINO и iBOT в задачах оптического потока и стереоглубины. Ещё интереснее практическая часть: тяжёлый энкодер может работать только на ключевых кадрах, а промежуток достраивается в латентном пространстве. Если это хорошо масштабируется, у видео-моделей станет меньше причин полагаться на сложные аугментации ради хороших метрик.

Источник: gonzo-обзоры ML статей

Все новости: ai.popovs.tech

#MetaAI #GitHub #ComputerVision

В этом посте были ссылки, но мы их удалили по правилам Сетки

еще контент в этом сообществе