GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval
📍Друзья, вышла моя новая статья на Habr: “GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ”!
Рассказал, как в Raft столкнулись с “характерами” разных LLM при оценке классификатора запросов. GPT-4o как педантичный профессор выявил нашу ошибку в метрике Faithfulness, а YandexGPT пытался “помочь” – в итоге перешли на AnswerRelevancy и вывели 5 правил для кастомных метрик.
Полезно для всех, кто работает с AI и тестированием! Читайте и делитесь мыслями: статья на Habr