Norm‑preserving abliteration снимает цензуру LLM
Новая техника norm‑preserving biprojected abliteration удаляет «направление отказа» из весов LLM, сохраняя нормы весов — модель перестаёт отказывать в ответах и может даже лучше рассуждать. Для разработчиков это означает: uncensor‑моды можно делать без сильной деградации качества.
Метод работает как ранговое обновление весов: из матриц attention и MLP вычитается только компонент, совпадающий с вектором отказа, а исходные нормы весов сохраняются. Это стабилизирует геометрию модели и уменьшает побочный урон reasoning‑способностям. Техника протестирована на Gemma 3 12B Instruct, где после модификации модель показала более высокий результат на reasoning‑бенчмарке NatInt и лучше обходила safety‑refusal.…
🔗 https://huggingface.co/blog/grimjim/norm-preserving-biprojected-abliteration
#LLM #MechanisticInterpretability #AIAlignment #DeepLearning #OpenModels