🌎 NVIDIA создал 6 млн бразильских персон
NVIDIA выпустила открытый набор синтетических персон для бразильского ИИ.
Датасет Nemotron-Personas-Brazil включает 6 млн уникальных профилей, сгенерированных на основе реальных статистических данных IBGE. Каждая персона имеет возраст, профессию, местоположение и интересы, прописанные на естественном бразильском португальском. Данные охватывают все 26 штатов и федеральный округ, включая 1,5 тыс. профессий и 457 тыс. уникальных имён. Генерация выполнена через NeMo Data Designer с использованием GPT-OSS-120B и вероятностной модели.
Всего датасет содержит ~1,4 млрд токенов и полностью свободен от персональных данных. Доступен на Hugging Face под лицензией CC BY 4.0.
#synthetic_data #sovereign_ai #brazil_ai #nvidia #huggingface