Yandex открыл начальный код платформы для работы с большенными данными
Yandex опубликовал начальный код YTsaurus. Это платформа для хранения и обработки огромных данных, с которой работает большая часть сервисов Yandex’а.
Платформа подступает для широкого круга задач, от аналитики до обучения сложных моделей с млрд характеристик. К примеру, Поиск строит при помощи YTsaurus поисковый индекс, а беспилотные авто употребляют платформу, чтоб обрабатывать данные о поездках и облагораживать свои методы. YTsaurus управляет суперкомпьютерами Yandex’а, распределяя нагрузку так, чтоб их вычислительные мощности использовались более отлично.
Максим Бабенко, управляющий отдела технологий распределенных вычислений:
Yandex ведет разработку YTsaurus – либо YT, как мы называем ее снутри – с 2010 года. Мы начали строить свою экосистему для огромных данных, поэтому что ни одно из имевшихся на рынке решений не удовлетворяло всем нашим требованиям. На данный момент YTsaurus – один из главных частей внутренней инфраструктуры Yandex’а. Над платформой работают 10-ки разрабов, и ее способности повсевременно расширяются.
YTsaurus – отказоустойчивая и просто масштабируемая платформа. В Yandex’е она развернута на 10-ках тыщ серверов и обрабатывает экзабайты данных; с ней работает любой 2-ой работник компании. YTsaurus можно употреблять как традиционную MapReduce-систему, но при всем этом она поддерживает и остальные пользующиеся популярностью подходы к обработке данных. К примеру, у нее есть интеграции с ClickHouse и Apache Spark. Подробнее о способностях YTsaurus рассказывается в блоге Yandex’а на «Хабре».
Алексей Башкеев, управляющий Yandex Cloud:
Самую большую пользу YTsaurus может принести большим компаниям, которые обрабатывают огромные объемы данных на тыщах серверов в критериях повсевременно растущей перегрузки.
Начальный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Применять платформу либо доработать ее под себя может хоть какой желающий.