Супер полезная фича для видео анализа и контентмейкеров

AI красавчик!

04.09

Супер полезная фича для видео анализа и контентмейкеров

Apple выпустила модель FastVLM - это Vision-Language Model (VLM), которая обрабатывает изображения и текст в реальном времени, описывая видео, понимая содержимое кадров и отвечая на вопросы по ним.

FastVLM работает в браузере с поддержкой WebGPU и transformers.js, обеспечивая до 85 раз большую скорость и в 3,4 раза меньший размер по сравнению с аналогичными моделями (доступны версии с 0,5B, 1,5B и 7B параметрами)

https://huggingface.co/spaces/apple/fastvlm-webgpu