Новости за последний час

Исследователи снова возвращаются к катастрофическому забыванию и предлагают не латать его регуляризацией, replay или EWC, а уйти от общих весов к роевой архитектуре с изоляцией параметров под каждую задачу. Идея простая: меньше смешивания знаний — меньше шансов, что новая задача сотрёт старую.

Звучит интересно именно потому, что это не ещё одна косметическая правка трансформера, а попытка поменять саму схему хранения знаний. Но и цена понятна: если у каждой задачи свои веса, то возрастает сложность управления моделью и её масштабирования. Для исследовательской статьи — сильный ход, для продакшена ещё предстоит доказать, что он окупается.

Источники: Habr AI, Habr AI

Все новости: ai.popovs.tech

#LLM #AI #MachineLearning


В этом посте были ссылки, но мы их удалили по правилам Сетки