LoRA-тюнинг LLM теперь запускается на смартфоне
Фреймворк QVAC Fabric позволил дообучать BitNet (1.58-bit) прямо на мобильных GPU — это значит, что LLM можно кастомизировать без облака, уже на устройстве; стоит пробовать для edge-приложений.
BitNet использует тернарные веса (-1, 0, 1) и резко снижает требования к памяти, а LoRA добавляет лёгкие адаптеры без изменения базовой модели. В решении задействован единый Vulkan-бэкенд и расширение llama.cpp, что даёт кросс-платформенность (Adreno, Mali, Apple GPU). В тестах показано ускорение инференса на GPU относительно CPU и возможность тюнинга моделей до 13B на мобильных устройствах. Это сдвигает фокус в сторону on-device AI и приватных сценариев.
🔗 https://huggingface.co/blog/qvac/fabric-llm-finetune-bitnet