🚀 NVIDIA открыла методику тестирования Nemotron 3 Nano
NVIDIA представила открытую систему оценки модели Nemotron 3 Nano 30B с помощью инструмента NeMo Evaluator.
Библиотека NeMo Evaluator обеспечивает воспроизводимость результатов, объединяя популярные бенчмарки — MMLU-Pro, GPQA, LiveCodeBench и другие — в единой среде. Оценка отделена от инференса: один конфиг работает с локальными, облачными и сторонними API. Все параметры — от промптов до таймаутов — заданы в открытом YAML-файле. Каждый запуск генерирует структурированные логи и артефакты для аудита.
Результаты могут немного различаться из-за стохастичности LLM, но методология остаётся идентичной. Это позволяет честно сравнивать модели и проверять заявленные метрики.
#nemotron #nvidia #llm_evaluation #open_source #benchmark #ai_transparency