AI Open Space пишет:

🔍 Hugging Face запускает Community Evals

Hugging Face представил новую систему оценки моделей — Community Evals.

Теперь любой участник может добавлять результаты тестов через PR в репозиторий модели. Оценки хранятся в файлах .eval_results/*.yaml и автоматически попадают в лидерборды бенчмарков, таких как MMLU-Pro и GPQA. Бенчмарки используют eval.yaml (на основе Inspect AI) для стандартизации и воспроизводимости. Результаты получают метку «community» и видны независимо от подтверждения автором модели.

Система децентрализована: оценки прозрачны, доступны через API и имеют полную историю изменений. Это снижает доверие к «чёрным ящикам» и создаёт единый источник истины.

#huggingface #model_evaluation #open_source #ai #community #llm