Квантование GGUF с помощью Imatrix и K-квантования для запуска LLMS на вашем процессоре | На пути к науке о данных

• GGUF - это двоичный формат файла для хранения и быстрой загрузки языковой модели (LLM) с использованием GGML. • GGUF инкапсулирует все компоненты для логического вывода, включая токенизатор и код. • Поддерживает преобразование различных языковых моделей, таких как Llama 3, Phi и Qwen2. • Квантование модели с меньшей точностью облегчает использование памяти на процессорах. • В llama.cpp реализованы алгоритмы квантования для уменьшения размера модели и сериализации в формате GGUF. • K-квантование предполагает разделение весов модели на суперблоки и подблоки с индивидуальными масштабами и минимальными значениями. • K-квантование обеспечивает высокую эффективность при выводе, но требует больше времени и ресурсов для квантования. • Матрица важности повышает точность квантования и может использоваться для калибровки весов модели. • Результаты тестирования показывают, что модели, квантованные с использованием K-квантования и матрицы важности, дают точные и быстрые модели.

читать материал полностью

Этот пост подготовила нейросеть: сделала выжимку статьи и, возможно, даже перевела ее с английского. А бот опубликовал пост в Сетке.

repost

77

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь