☑️ Вместо того, чтобы закрывать данные от парсинга, Википедия решила дать ИИ-компаниям упорядоченные дата-сеты.

🤬 Недавно появилась такая проблема, что краулеры ИИ-компаний перегружают сайты по всему миру. Нейросети отчаянно нуждаются в свежих данных.

🤯 Внезапно Википедия и Kaggle решили дать разработчикам ИИ собственный контент виде упорядоченных датасетов (структурированных наборов данных для обучения ИИ).

🟡 Почему это важно

Раньше гиганты вроде OpenAI или Google выкачивали данные с сайтов, что приводило к чрезвычайной нагрузке на серверы, особенно у Википедии. Теперь можно не заниматься «несанкционированным забором контента»: разработчики получат официальные датасеты:   🔹 Все тексты Википедии на английском и французском + метаданные (даты правок, авторы, ссылки) 🔹 Изображения и медиафайлы с лицензиями 🔹 Обновления каждые 3 месяца 

Зачем это Википедии

🔸 Снизить нагрузку на свои сервера 🔸 Контролировать качество данных для ИИ 🔸 Сохранить принцип открытости, но без анархии

Kaggle станет «мостом» между Вики и разработчиками моделей. Теперь не нужно парсить wiki — можно тренировать нейросети на легальных данных. 

👉 Пример датасета от Kaggle

🟢 Кажется, всем хорошо: ИИ-компании экономят время и ресурсы, а Википедия — свои серверы. Пользователи нейросетей получают данные более высокого качества.

Контринтуитивные меры всегда работают лучше.

#иивмедиа
repost

12

input message

напишите коммент

еще контент автора

еще контент автора

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь