Ученые «Яндекса» представили Yambda (YAndex Music Billion-interactions DAtaset) — один из крупнейших в мире открытых датасетов, предназначенных для развития рекомендательных систем. Теперь исследователи и университеты по всему миру смогут использовать этот датасет для тестирования и улучшения алгоритмов рекомендаций. По словам представителя компании, это значимый шаг для научного сообщества, которому нужны качественные и масштабные данные.

Yambda доступен в трех вариантах: полная версия с 5 миллиардами данных, а также два уменьшенных варианта на 500 миллионов и 50 миллионов записей. Это позволяет разработчикам выбрать подходящий объем в зависимости от их задач и вычислительных ресурсов. Данные можно найти на платформе HuggingFace, а код для замеров доступен на GitHub.

Александр Плошкин, руководитель направления по развитию качества персонализации в «Яндексе», отметил важность этого этапа для науки. Он указал на проблему нехватки открытых и крупных датасетов, из-за чего существует разрыв между академическими исследованиями и потребностями бизнеса. Исторический пример — датасет ImageNet, который стал фундаментом для прорыва в области компьютерного зрения и глубокого обучения. Публикация Yambda открывает новые горизонты для научных исследователей и студентов, интересующихся машинным обучением.

Yambda основан на анонимных данных «Яндекс Музыки», российского сервиса потокового музыки. Несмотря на его происхождение, датасет можно применять для оценки работы любых рекомендательных систем. Он включает в себя агрегированные данные о прослушиваниях, лайках и дизлайках, а также характеристики треков, а вся информация о пользователях остается конфиденциальной благодаря анонимизации.

Этот открытый доступ к данным, созданный на основе сложных алгоритмов, позволит расширить возможности для исследований и привлечь внимание молодых ученых к актуальным проблемам в сфере машинного обучения. С Yambda исследователи смогут создавать более точные и эффективные рекомендательные системы, улучшая пользовательский опыт в других сервисах, от интернет-магазинов до онлайн-кинотеатров.

От Дмитрий Соколов

Гик-писака🤓