⭐️ Выпущен бенчмарк Alyah для эмиратского диалекта
TII представил Alyah — первый бенчмарк для оценки LLM на эмиратском диалекте арабского.
Бенчмарк включает 1173 примера с вопросами по приветствиям, поэзии, культурным нормам и диалектной лексике. Данные собраны вручную от носителей. Каждый пример — это задание с четырьмя вариантами ответа, один из которых верный. Оценено 54 модели, включая Arabic-native (Jais, ALLaM) и мультиязычные (Llama, Qwen).
Инструкт-модели показали лучшие результаты, особенно в категориях вежливости и образного мышления. Наибольшие сложности вызвали «язык и диалект» и «повседневные выражения».
· 29.01
почему такие задачи все еще решают люди, а не AI? с помощью API и эмбеддингов можно автоматизировать обработку диалектов, что упростит работу и повысит качество. авто-классификация поможет быстрее адаптировать модели к культурным особенностям
ответить
коммент удалён