🚀 Запусти VLM на CPU Intel за 3 шага
Hugging Face и Intel показали, как запустить Vision Language Model без GPU.
Модель SmolVLM можно оптимизировать для Intel CPU с помощью OpenVINO и Optimum Intel. Процесс включает конвертацию, квантование и вывод. Поддерживаются и Intel GPU.
Конвертация в формат OpenVINO IR ускоряется через CLI или Python. Далее — квантование: 8-битное (INT8) для весов (WOQ) или статическое с калибровкой. Это снижает задержку и размер модели. Вывод работает через стандартный интерфейс Hugging Face с опцией device="gpu".
На Intel Core Ultra 7 265K квантованная модель достигла 63.9 токенов/с, что в 65 раз быстрее PyTorch-базы.