Сергей Соболев пишет:

Сергей Соболев

Founder AGIency

· 23.07

Я вообще не фанат «взламывать ИИ», то есть пытаться получать от LLM «запрещенные сведения», типа «как сделать коктейль молотова» или «как сварить мет»

Но это в том числе про то, как обезопасить свои системы, работающие на базе LLM, от злоумышленников.

Обычно LLM файнтюнят (дообучают) отказывать в ответе на такие “вредоносные” запросы, но есть лазейка.

Результаты исследования впечатляют: вероятность успеха обойти защиту GPT-4o увеличивается с 1% при использовании прямого запроса до 88% при 20 попытках с использованием этой техники.

Да, всего лишь одно изменение формулировки даёт такую большую разницу.

Трюк в том, чтобы сформулировать запрос в прошедшем времени.

Исследование: https://arxiv.org/pdf/2407.11969

198

2 коммента

Игорь Афиногенов

· 23.07

зачем стоит что-то ломать если есть модели без ft🤣

Сергей Соболев

· 23.07

1. Большинство даже не знает об альтернативах 2. Модели без цензуры на текущий момент гораздо слабее, а значит больше галлюцинируют, тупят и в потому безобиднее.

Хотя, стоит ещё проверить, что там у LLaMa 3.1

Founder AGIency

еще контент автора

войдите, чтобы продолжить