🔹 Метрики качества ответов LLM 🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)? 🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические дают сигнал на CI, человек проверяет факты и полезность.

🔸 BLEU и ROUGE измеряют n‑gram overlap с эталонными ответами: BLEU — «precision» совпадающих фрагментов, ROUGE — «recall/длинная общая подпоследовательность». Работают, когда есть надёжные референсы, но пропускают корректные парафразы. Пример: эталон «Кошка сидит на ковре», кандидат «На ковре сидит кошка» — высокая перекрываемость, но семантика может быть сложнее.

🔸 Perplexity (перплексия) — мера средней «неопределённости» модели по лог‑вероятности токенов; полезна во время обучения и для обнаружения деградации, но не всегда коррелирует с фактической правдивостью ответа.

🔸 Human eval остаётся золотым стандартом для фактов и полезности: дорого и шумно, поэтому хук — комбинируйте: автоматические метрики для быстрых тестов, human eval для финальной проверки.

📚 Комбинируйте метрики: perplexity + BLEU/ROUGE для CI, human eval для релиза.

#CODERIKK #Prompt #Middle

➡️ Мы в Telegram - Сетке - Дзен Буду рад вашей реакции здесь⬇️


В этом посте были ссылки, но мы их удалили по правилам Сетки

🔹 Метрики качества ответов LLM
🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)?
🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические ... | Сетка — социальная сеть от hh.ru