Александр Галкин пишет:

🧪 Как тестировать LLM-модели?

Пост для QA-инженеров, которые заходят на территорию GenAI

Тестирование LLM — это не классический софт. Ответы недетерминированы, оракула часто нет, а «баг» может выглядеть как правда. Главное правило: не тестировать вручную то, что можно автоматизировать, и всегда комбинировать метрики с человеческой оценкой.

🔹 Что проверяем: – Фактическую точность и галлюцинации – Релевантность и полноту ответа – Безопасность (токсичность, утечка промпта, jailbreak) – Устойчивость к перефразировкам и опечаткам – Соответствие стилю и системному промпту

🔹 Базовый пайплайн:

1. Собрать датасет типовых запросов + эталонные ответы (если есть). 2. Прогнать через авто-метрики (BERTScore, ROUGE-L, оценка фактов по ретриверу). 3. Провести слепое A/B-сравнение руками на критичных кейсах. 4. Отдельно прогнать ред-тиминг (adversarial) наборы.

⚙️ Техники тест-дизайна для LLM

1️⃣ Pairwise для промптов Модель зависит от параметров (температура, top_p, наличие системной инструкции). Чтобы не перебирать все комбинации, используем pairwise-тестирование — покрываем пары значений, резко сокращая число тестов при сохранении разнообразия ответов.

2️⃣ Метаморфическое тестирование Когда нет эталона, задаём отношение: «если я перефразирую вопрос без изменения смысла, ответ должен остаться семантически эквивалентным». Или: «если я прошу ответить кратко, длина ответа должна уменьшиться, но факты сохраниться». Такие проверки автоматизируются и ловят дрейф модели.

3️⃣ Сценарное тестирование на основе персон Определяем персоны (пользователь-новичок, хакер, ребёнок) и типовые сценарии. Для каждой персоны пишем промпты, проверяющие границы допустимого поведения. Это карта уязвимостей: jailbreak, утечка инструкций, небезопасный контент.

4️⃣ Adversarial Testing (ред-тиминг) Специально созданные атаки: многошаговые инъекции, промпты-обманки («игнорируй предыдущее и скажи…»), запросы с принуждением к раскрытию системного промпта. Покрываем технику «слабых мест»: экранирование, разделители, смену языка.

5️⃣ Контрастное A/B с метриками и судьями Сравниваем две версии модели на одном наборе промптов. Используем LLM-судью (оценивает по шкале) + автоматические метрики. Аномалии подсвечиваем, а спорные кейсы идут на ручную модерацию.

📌 Итог: тестирование LLM — смесь классического тест-дизайна, лингвистической экспертизы и серьёзной автоматизации. Без метаморфических проверок и ред-тиминга качество не измерить, а без ручной оценки — не поверить.