🔹 Prompt injection: что это и как защититься 🔹 Что ломается, когда модель получает вредоносную инструкцию? 🔸 prompt injection — это инъекция команд в текст запроса, которая может переопределить system message и заставить модель раскрыть секреты или выполнить нежелательные действия.
🔸 Возникает, когда пользовательский ввод попадает в промпт без проверки: логи, файлы, поля формы — всё может содержать инъекцию.
🔸 Простая защита — sanitize: удаляйте строки с явными инструкциями вроде "ignore previous" или "system:" перед вставкой в промпт.
🔸 Держите system message вне пользовательских данных и валидируйте ответы на соответствие политике (утверждённый формат, отказ от выполнения опасных команд).
def sanitize(prompt): return "n".join(l for l in prompt.split("n") if not l.lower().startswith("system:"))
📚 Маленькая привычка: всегда фильтруй и отделяй system message — это простейшая защита от инъекции.
➡️ Мы в Telegram - Сетке - ВК Буду рад вашей реакции здесь⬇️
В этом посте были ссылки, но мы их удалили по правилам Сетки