NVIDIA выпустила датасет реалистичных персон
Nemotron-Personas задаёт новый стандарт синтетических данных, выравнивая их с реальными демографическими и поведенческими распределениями. Это важно для обучения и тестирования LLM в задачах, где критичны реализм и безопасность данных.
Датасет включает сотни тысяч персон с атрибутами демографии, географии и психологии, а также нарративные поля вроде навыков и целей. Генерация сочетает вероятностные модели и open-weight LLM, что повышает правдоподобие. Подход уже применяется для instruction tuning и red teaming. Ключевым становится использование таких данных в финтехе, здравоохранении и госсекторе для проверки моделей без риска утечки персональной информации.