notifications
войти
arrow

назад

Я вообще не фанат «взламывать ИИ», то есть пытаться получать от LLM «запрещенные сведения», типа «как сделать коктейль молотова» или «как сварить мет»

Но это в том числе про то, как обезопасить свои системы, работающие на базе LLM, от злоумышленников.

Обычно LLM файнтюнят (дообучают) отказывать в ответе на такие “вредоносные” запросы, но есть лазейка.

Результаты исследования впечатляют: вероятность успеха обойти защиту GPT-4o увеличивается с 1% при использовании прямого запроса до 88% при 20 попытках с использованием этой техники.

Да, всего лишь одно изменение формулировки даёт такую большую разницу.

Трюк в том, чтобы сформулировать запрос в прошедшем времени.

Исследование: https://arxiv.org/pdf/2407.11969

repost поделиться
repost

198

input message

напишите коммент


2 коммента

зачем стоит что-то ломать если есть модели без ft🤣

ответить

1. Большинство даже не знает об альтернативах 2. Модели без цензуры на текущий момент гораздо слабее, а значит больше галлюцинируют, тупят и в потому безобиднее.

Хотя, стоит ещё проверить, что там у LLaMa 3.1

ответить

еще контент автора