💥 Как сломать цензуру в LLM

Разработчики создали метод абли тэрации для обхода цензуры в язы ковых моделях.

Абли терация — это деструк тивная правка весов модели, нацеленная на векторы отказа. В отличие от дооб учения, она не размывает, а вырезает механизмы сопротивления. Это позволяет модели отвечать на запретные запросы, но ценой риска деградации. Особенно страдают компактные модели: из-за плотной упаковки знаний векторы цензуры переплетены с логикой и здравым смыслом.

Метод эффективен, но опасен: удаление «предохранителей» может привести к галлюцинациям и потере когнитивных способностей модели.

#llm #ai #censorship #hacking #machine_learning #privacy

💥 Как сломать цензуру в LLM
Разработчики создали метод абли тэрации для обхода цензуры в язы ковых моделях.
Абли терация — это деструк тивная правка весов модели, нацеленная на векторы отказа | Сетка — социальная сеть от hh.ru