«Арены», на которых бьются не гладиаторы, а LLM

Как оценить эффективность чатов, основанных на LLM? С помощью специальных сервисов.

Например, Chatbot Arena — самый популярный рейтинг LLM. Ареной ее назвали потому, что чат-боты здесь буквально соревнуются между собой за лучшую оценку зрителей. В режиме баттла юзеры изначально не знают, какую ИИ оценивают. В режиме side-by-side можно специально выбрать две интересующие вас ИИ и задать им вопрос, чтобы в итоге выбрать подходящую под ваши бизнес-задачи.

Основной критерий оценки — человеческое предпочтение. Поэтому на арене есть таблица лидеров, в которой можно увидеть, сколько голосов набрала та или иная модель. Хотя есть и свои минусы — оценку ставят живые люди, которые также могут быть субъективны. Аналог арены — сайт Artificial Analysis. Здесь вы тоже можете увидеть рейтинг моделей: оценивается качество, количество выводимых токенов в секунду и стоимость.

__ Подписывайтесь: "Как приручить ИИ"

repost

31

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь