Супер полезная фича для видео анализа и контентмейкеров

Apple выпустила модель FastVLM - это Vision-Language Model (VLM), которая обрабатывает изображения и текст в реальном времени, описывая видео, понимая содержимое кадров и отвечая на вопросы по ним.

FastVLM работает в браузере с поддержкой WebGPU и transformers.js, обеспечивая до 85 раз большую скорость и в 3,4 раза меньший размер по сравнению с аналогичными моделями (доступны версии с 0,5B, 1,5B и 7B параметрами)

https://huggingface.co/spaces/apple/fastvlm-webgpu

Супер полезная фича для видео анализа и контентмейкеров | Сетка — социальная сеть от hh.ru
repost

85

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь