Я вообще не фанат «взламывать ИИ», то есть пытаться получать от LLM «запрещенные сведения», типа «как сделать коктейль молотова» или «как сварить мет»

Но это в том числе про то, как обезопасить свои системы, работающие на базе LLM, от злоумышленников.

Обычно LLM файнтюнят (дообучают) отказывать в ответе на такие “вредоносные” запросы, но есть лазейка.

Результаты исследования впечатляют: вероятность успеха обойти защиту GPT-4o увеличивается с 1% при использовании прямого запроса до 88% при 20 попытках с использованием этой техники.

Да, всего лишь одно изменение формулировки даёт такую большую разницу.

Трюк в том, чтобы сформулировать запрос в прошедшем времени.

Исследование: https://arxiv.org/pdf/2407.11969