Исследование, проведенное компанией Axenix, показало, что инструменты китайских вендоров для анализа больших данных демонстрируют более высокую производительность по сравнению с популярными open source решениями, такими как Greenplum, Trino и Apache Spark. Это открытие происходит на фоне активной трансформации рынка систем класса DWH (Data Warehouse) в России, где предприятия мигрируют на отечественные технологии.
С начала 2022 года на российском рынке наблюдается повышение интереса к локальным продуктам в области хранилищ данных. В рамках этой инициативы большинство популярных решений основываются на open source технологиях. К традиционно используемым системам относятся Greenplum и Clickhouse, которые, несмотря на свою популярность, имеют определенные ограничения при выполнении задач современных российских компаний.
Axenix, принимая во внимание недостатки существующих решений, решилась провести исследование, чтобы сравнить производительность продуктов китайских компаний Transwarp и YMatrix с более распространенными на российском рынке open source продуктами. В процессе тестирования были охвачены различные сценарии работы, что позволило получить более точные результаты о функциональности и производительности систем.
Современные российские команды часто сталкиваются с трудностями при оценке производительности выбранного ПО для анализа больших данных. По этой причине Axenix провела нагрузочное тестирование на основе стандартного бенчмарка TPC-DS, который позволяет проводить сравнительный анализ производительности аналитических СУБД.
Результаты тестирования продемонстрировали, что решения Transwarp и YMatrix не только превосходят Greenplum, но и подходят для широкого спектра задач в области корпоративных хранилищ данных. «Мы смогли определить ряд надежных продуктов, которые предназначены для эффективной обработки больших объемов данных и могут работать с высокой нагрузкой в реальном времени», — прокомментировала Татьяна Кириленко, руководитель направления «Инженерия и архитектура данных» компании.
Так, Transwarp показал наивысшую производительность и способность сохранять логику приложений при миграции с Oracle и Teradata, тогда как YMatrix стал вторым по производительности, предлагая несколько оптимизаций по сравнению с Greenplum. Тем не менее, последняя система, несмотря на свою надежность, продемонстрировала наименьшую производительность среди тестируемых решений, что ставит под сомнение её применение для самых требовательных задач.
Тестирование подтвердило, что при правильном выборе архитектуры и платформы, компании могут значительно повысить эффективность своих аналитических процессов. Переход к китайским решениям может стать важным шагом в дальнейшей модернизации и оптимизации бизнеса в России, особенно в свете ограничений выбора ПО.
Наблюдаемое развитие китайских технологий на российском рынке может оказать значительное влияние на соревнование в сегменте DWH, подчеркивая необходимость в современном и производительном ПО для аналитики данных.
