04.09
Супер полезная фича для видео анализа и контентмейкеров
Apple выпустила модель FastVLM - это Vision-Language Model (VLM), которая обрабатывает изображения и текст в реальном времени, описывая видео, понимая содержимое кадров и отвечая на вопросы по ним.
FastVLM работает в браузере с поддержкой WebGPU и transformers.js, обеспечивая до 85 раз большую скорость и в 3,4 раза меньший размер по сравнению с аналогичными моделями (доступны версии с 0,5B, 1,5B и 7B параметрами)
еще контент в этом сообществе
еще контент в этом соообществе
04.09
войдите, чтобы увидеть
и подписаться на интересных профи