Сергей Соболев
CTO Calendaria · 23.07
Я вообще не фанат «взламывать ИИ», то есть пытаться получать от LLM «запрещенные сведения», типа «как сделать коктейль молотова» или «как сварить мет»
Но это в том числе про то, как обезопасить свои системы, работающие на базе LLM, от злоумышленников.
Обычно LLM файнтюнят (дообучают) отказывать в ответе на такие “вредоносные” запросы, но есть лазейка.
Результаты исследования впечатляют: вероятность успеха обойти защиту GPT-4o увеличивается с 1% при использовании прямого запроса до 88% при 20 попытках с использованием этой техники.
Да, всего лишь одно изменение формулировки даёт такую большую разницу.
Трюк в том, чтобы сформулировать запрос в прошедшем времени.
Исследование: https://arxiv.org/pdf/2407.11969
Игорь Афиногенов
· 23.07
зачем стоит что-то ломать если есть модели без ft🤣
ответить
Сергей Соболев
23.07
1. Большинство даже не знает об альтернативах 2. Модели без цензуры на текущий момент гораздо слабее, а значит больше галлюцинируют, тупят и в потому безобиднее.
Хотя, стоит ещё проверить, что там у LLaMa 3.1
ответить
еще контент автора
еще контент автора
Сергей Соболев
CTO Calendaria · 23.07
войдите, чтобы увидеть
и подписаться на интересных профи