GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval | Сетка — социальная сеть от hh.ru

лента
нетворк
создать
чаты
профиль

войти

назад

Рамиль Аллахвердиев

Рамиль Аллахвердиев

Инженер по качеству AI/ML в Рафт Диджитал Солюшенс

· 15.08.2025 · ред.

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval

📍Друзья, вышла моя новая статья на Habr: “GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ”!

Рассказал, как в Raft столкнулись с “характерами” разных LLM при оценке классификатора запросов. GPT-4o как педантичный профессор выявил нашу ошибку в метрике Faithfulness, а YandexGPT пытался “помочь” – в итоге перешли на AnswerRelevancy и вывели 5 правил для кастомных метрик.

Полезно для всех, кто работает с AI и тестированием! Читайте и делитесь мыслями: статья на Habr

#AI #LLM #DeepEval #YandexGPT #GPT4o #Raft

поделиться

repost

125

0 комментов

еще контент автора

Рамиль Аллахвердиев

Инженер по качеству AI/ML в Рафт Диджитал Солюшенс

сетки автора поста сетки

пост закреплён — пока закрепить можно только один пост