5 миллиардов событий.

Что такое 5 миллиардов событий — это обезличенные и тщательно зачищенные данные за 8 месяцев работы Яндекс Музыки, на которых можно обучать и тестировать рекомендательные системы. Пару дней назад Яндекс выложил в опенсорс Yambda (YAndex Music Billion-interactions DAtaset) — один из крупнейших в мире датасетов для развития рекомендательных систем.

Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Данные датасета и код для замеров доступны на HuggingFace.

Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Вообще, когда занимаешься любой работой с данными, хочется иметь некоторую точку отсчета. В мире не так много хороших датасетов, способных стать линейкой. Смотрю на работу коллег и прям кайфы. Хочется верить, что этот шаг поможет развитию рекомендательных систем во всем мире.

5 миллиардов событий.
Что такое 5 миллиардов событий — это обезличенные и тщательно зачищенные данные за 8 месяцев работы Яндекс Музыки, на которых можно обучать и тестировать рекомендательные системы | Сетка — новая социальная сеть от hh.ru
repost

8

input message

напишите коммент

еще контент в этом сообществе

еще контент в этом соообществе

войдите, чтобы увидеть

и подписаться на интересных профи

в приложении больше возможностей

пока в веб-версии есть не всё — мы вовсю работаем над ней

сетка — cоциальная сеть для нетворкинга от hh.ru

пересекайтесь с теми, кто повлияет на ваш профессиональный путь