Я вообще не фанат «взламывать ИИ», то есть пытаться получать от LLM «запрещенные сведения», типа «как сделать коктейль молотова» или «как сварить мет»

Но это в том числе про то, как обезопасить свои системы, работающие на базе LLM, от злоумышленников.

Обычно LLM файнтюнят (дообучают) отказывать в ответе на такие “вредоносные” запросы, но есть лазейка.

Результаты исследования впечатляют: вероятность успеха обойти защиту GPT-4o увеличивается с 1% при использовании прямого запроса до 88% при 20 попытках с использованием этой техники.

Да, всего лишь одно изменение формулировки даёт такую большую разницу.

Трюк в том, чтобы сформулировать запрос в прошедшем времени.

Исследование: https://arxiv.org/pdf/2407.11969

repost

198

input message

напишите коммент

· 23.07

зачем стоит что-то ломать если есть модели без ft🤣

ответить

23.07

1. Большинство даже не знает об альтернативах 2. Модели без цензуры на текущий момент гораздо слабее, а значит больше галлюцинируют, тупят и в потому безобиднее.

Хотя, стоит ещё проверить, что там у LLaMa 3.1

ответить

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь