NVIDIA выпустила датасет реалистичных персон

Nemotron-Personas задаёт новый стандарт синтетических данных, выравнивая их с реальными демографическими и поведенческими распределениями. Это важно для обучения и тестирования LLM в задачах, где критичны реализм и безопасность данных.

Датасет включает сотни тысяч персон с атрибутами демографии, географии и психологии, а также нарративные поля вроде навыков и целей. Генерация сочетает вероятностные модели и open-weight LLM, что повышает правдоподобие. Подход уже применяется для instruction tuning и red teaming. Ключевым становится использование таких данных в финтехе, здравоохранении и госсекторе для проверки моделей без риска утечки персональной информации.

🔗 https://huggingface.co/blog/nvidia/nemotron-personas

#AI #LLM #SyntheticData #MachineLearning #DataPrivacy

NVIDIA выпустила датасет реалистичных персон
Nemotron-Personas задаёт новый стандарт синтетических данных, выравнивая их с реальными демографическими и поведенческими распределениями | Сетка — социальная сеть от hh.ru