Как устроены медиа
Алексей Березовой, Исполнительный директор (CEO) в Give Me Public · 17.04
☑️ Вместо того, чтобы закрывать данные от парсинга, Википедия решила дать ИИ-компаниям упорядоченные дата-сеты.
🤬 Недавно появилась такая проблема, что краулеры ИИ-компаний перегружают сайты по всему миру. Нейросети отчаянно нуждаются в свежих данных.
🤯 Внезапно Википедия и Kaggle решили дать разработчикам ИИ собственный контент виде упорядоченных датасетов (структурированных наборов данных для обучения ИИ).
🟡 Почему это важно
Раньше гиганты вроде OpenAI или Google выкачивали данные с сайтов, что приводило к чрезвычайной нагрузке на серверы, особенно у Википедии. Теперь можно не заниматься «несанкционированным забором контента»: разработчики получат официальные датасеты: 🔹 Все тексты Википедии на английском и французском + метаданные (даты правок, авторы, ссылки) 🔹 Изображения и медиафайлы с лицензиями 🔹 Обновления каждые 3 месяца
Зачем это Википедии
🔸 Снизить нагрузку на свои сервера 🔸 Контролировать качество данных для ИИ 🔸 Сохранить принцип открытости, но без анархии
Kaggle станет «мостом» между Вики и разработчиками моделей. Теперь не нужно парсить wiki — можно тренировать нейросети на легальных данных.
👉 Пример датасета от Kaggle
🟢 Кажется, всем хорошо: ИИ-компании экономят время и ресурсы, а Википедия — свои серверы. Пользователи нейросетей получают данные более высокого качества.
Контринтуитивные меры всегда работают лучше.
#иивмедиаеще контент автора
еще контент автора
Как устроены медиа
Алексей Березовой, Исполнительный директор (CEO) в Give Me Public · 17.04
войдите, чтобы увидеть
и подписаться на интересных профи