AI Open Space пишет:

🛡️ AprielGuard: охрана для LLM от атак и вреда

ServiceNow представил AprielGuard — 8B-параметровую модель безопасности для LLM.

AprielGuard обнаруживает 16 категорий вредоносного контента (включая токсичность, дезинформацию, финансовую угрозу) и адаптивные атаки: jailbreak, prompt injection, подмену контекста и атаки в агентных рабочих процессах. Модель работает в двух режимах — быстрая классификация и с пояснением решения. Поддерживает многооборотные диалоги, агентные цепочки с вызовами инструментов и контекст до 32 тыс. токенов.

На бенчмарках достигает F1 до 1.00 в классификации вреда и 0.96 — в обнаружении атак; протестирован на 8 языках.

#safety #llm_security #AprielGuard #adversarial_robustness #ai_guardrails