airllm
AirLLM — это инструмент, позволяющий выполнять вывод (inference) больших языковых моделей (LLM) с 70 миллиардами параметров на одном GPU с 4 ГБ памяти.
Он оптимизирует использование памяти во время вывода, что позволяет запускать модели без необходимости в квантовании, дистилляции или обрезке.
AirLLM поддерживает различные модели, включая Llama3.1 405B, и совместим с Linux и macOS, обеспечивая гибкость в выборе платформы.
Lang: Jupyter Notebook https://github.com/0xSojalSec/airllm