GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval

📍Друзья, вышла моя новая статья на Habr: “GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ”!

Рассказал, как в Raft столкнулись с “характерами” разных LLM при оценке классификатора запросов. GPT-4o как педантичный профессор выявил нашу ошибку в метрике Faithfulness, а YandexGPT пытался “помочь” – в итоге перешли на AnswerRelevancy и вывели 5 правил для кастомных метрик.

Полезно для всех, кто работает с AI и тестированием! Читайте и делитесь мыслями: статья на Habr

#AI #LLM #DeepEval #YandexGPT #GPT4o #Raft