25.09
«Арены», на которых бьются не гладиаторы, а LLM
Как оценить эффективность чатов, основанных на LLM? С помощью специальных сервисов.
Например, Chatbot Arena — самый популярный рейтинг LLM. Ареной ее назвали потому, что чат-боты здесь буквально соревнуются между собой за лучшую оценку зрителей. В режиме баттла юзеры изначально не знают, какую ИИ оценивают. В режиме side-by-side можно специально выбрать две интересующие вас ИИ и задать им вопрос, чтобы в итоге выбрать подходящую под ваши бизнес-задачи.
Основной критерий оценки — человеческое предпочтение. Поэтому на арене есть таблица лидеров, в которой можно увидеть, сколько голосов набрала та или иная модель. Хотя есть и свои минусы — оценку ставят живые люди, которые также могут быть субъективны. Аналог арены — сайт Artificial Analysis. Здесь вы тоже можете увидеть рейтинг моделей: оценивается качество, количество выводимых токенов в секунду и стоимость.
__ Подписывайтесь: "Как приручить ИИ"
еще контент в этом сообществе
еще контент в этом соообществе
25.09
войдите, чтобы увидеть
и подписаться на интересных профи