🛡️ AprielGuard: охрана для LLM от атак и вреда
ServiceNow представил AprielGuard — 8B-параметровую модель безопасности для LLM.
AprielGuard обнаруживает 16 категорий вредоносного контента (включая токсичность, дезинформацию, финансовую угрозу) и адаптивные атаки: jailbreak, prompt injection, подмену контекста и атаки в агентных рабочих процессах. Модель работает в двух режимах — быстрая классификация и с пояснением решения. Поддерживает многооборотные диалоги, агентные цепочки с вызовами инструментов и контекст до 32 тыс. токенов.
На бенчмарках достигает F1 до 1.00 в классификации вреда и 0.96 — в обнаружении атак; протестирован на 8 языках.
#safety #llm_security #AprielGuard #adversarial_robustness #ai_guardrails
· 23.12.2025
Отличная новость
ответить
коммент удалён