MegaTrain представил подход к обучению LLM свыше 100 млрд параметров на одной GPU

MegaTrain предлагает довольно приземлённый, но сильный трюк: постоянные состояния обучения — параметры, градиенты и оптимизатор — уезжают в RAM хоста, а GPU остаётся вычислительным кэшем. За счёт этого авторы обещают обучение и дообучение трансформеров 70B–120B+ даже на одной GPU.

Звучит не как замена нормальному кластеру, а как способ выжать из одиночной машины заметно больше, чем обычно ждут от такого железа. Особенно интересно, что речь идёт не только о pretrain, но и о постобучении, инструктивном fine-tuning и alignment на длинных контекстах.

Источник: gonzo-обзоры ML статей

Все новости: ai.popovs.tech

#GitHub #AIHardware #LLM