Yandex выложил в опенсорс один из больших в мире датасетов для развития рекомендательных систем
Yandex выложил в открытый доступ один из больших в мире датасетов для развития рекомендательных систем – Yambda (YAndex Music Billion-interactions DAtaset). При помощи Yambda ученые, исследователи и университеты со всего мира сумеют тестировать и облагораживать рекомендательные методы.
Датасет в 3-х вариантах: с полной версией данных и с уменьшенными. Создатели могут избрать тот вариант, который соответствует их задачке и подступает под вычислительные ресурсы.

Александр Плошкин, управляющий направления по развитию свойства персонализации в Yandex’е:
Рекомендательные методы помогают людям отыскивать нужные продукты, киноленты, музыку и почти все другое – конкретно они лежат в базе сервисов от интернет-магазинов до онлайн-кинотеатров. Развитие этих алгоритмов впрямую зависит от научных исследовательских работ, для которых необходимы высококачественные и большие датасеты. При всем этом опенсорс-датасеты почаще всего невелики по размеру либо уже устарели, потому что коммерческие компании, которые копят терабайты данных, изредка их публикуют. Это делает разрыв меж академическими исследовательскими работами и потребностями бизнеса.
Публикация огромных открытых датасетов наподобие Yambda помогает решить эту делему.
Yambda сотворен на базе обезличенных данных Yandex Музыки, но подступает для оценки свойства всех рекомендательных систем, потому что в их базе лежат общие методы.
Данные датасета доступны на HuggingFace, код для оценки замеров – на GitHub.
Напомним, ранее Yandex обновил опенсорс-фреймворк DivKit: верстка мобильных интерфейсов стала проще.