💥 Как сломать цензуру в LLM
Разработчики создали метод абли тэрации для обхода цензуры в язы ковых моделях.
Абли терация — это деструк тивная правка весов модели, нацеленная на векторы отказа. В отличие от дооб учения, она не размывает, а вырезает механизмы сопротивления. Это позволяет модели отвечать на запретные запросы, но ценой риска деградации. Особенно страдают компактные модели: из-за плотной упаковки знаний векторы цензуры переплетены с логикой и здравым смыслом.
Метод эффективен, но опасен: удаление «предохранителей» может привести к галлюцинациям и потере когнитивных способностей модели.