Yandex выложил в опенсорс один из больших в мире датасетов для развития рекомендательных систем

Yandex выложил в открытый доступ один из больших в мире датасетов для развития рекомендательных систем – Yambda (YAndex Music Billion-interactions DAtaset). При помощи Yambda ученые, исследователи и университеты со всего мира сумеют тестировать и облагораживать рекомендательные методы.

Датасет в 3-х вариантах: с полной версией данных и с уменьшенными. Создатели могут избрать тот вариант, который соответствует их задачке и подступает под вычислительные ресурсы.

Александр Плошкин, управляющий направления по развитию свойства персонализации в Yandex’е:

Рекомендательные методы помогают людям отыскивать нужные продукты, киноленты, музыку и почти все другое – конкретно они лежат в базе сервисов от интернет-магазинов до онлайн-кинотеатров. Развитие этих алгоритмов впрямую зависит от научных исследовательских работ, для которых необходимы высококачественные и большие датасеты. При всем этом опенсорс-датасеты почаще всего невелики по размеру либо уже устарели, потому что коммерческие компании, которые копят терабайты данных, изредка их публикуют. Это делает разрыв меж академическими исследовательскими работами и потребностями бизнеса.

Публикация огромных открытых датасетов наподобие Yambda помогает решить эту делему.

Yambda сотворен на базе обезличенных данных Yandex Музыки, но подступает для оценки свойства всех рекомендательных систем, потому что в их базе лежат общие методы.

Данные датасета доступны на HuggingFace, код для оценки замеров – на GitHub.

Напомним, ранее Yandex обновил опенсорс-фреймворк DivKit: верстка мобильных интерфейсов стала проще.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *