BIG DATA 2019 Hadoop по-русски становится платформой корпоративного уровня

Май 21, 2019 12

BIG DATA 2019: «Hadoop по-русски» становится платформой корпоративного уровня

Создатели Arenadata Enterprise Data Platform заявляют о своей готовности составить конкуренцию продуктам мировых лидеров.

Два года назад Сергей Золотарев, управляющий партнер Arenadata, в своем интервью Computerworld Россия (см. «Hadoop для цифровой трансформации», Computerworld Россия, 10 мая 2017) заявил, что Hadoop постепенно становится стандартной платформой хранения данных, на которую обратили пристальное внимание ведущие софтверные вендоры. Он также отметил, что в России ее начинают использовать компании «из первой десятки» самых продвинутых отраслей и даже многие госкомпании, это и подвигло российских разработчиков создать свой дистрибутив Hadoop. По окончании форума BIG DATA 2019 мы вновь встретились с Золотаревым, чтобы выяснить, насколько за прошедшее время изменились сам рынок Hadoop, возможности этого ПО и продукт Arenadata.

— Два года назад вы говорили, что в России Hadoop используют компании из самых продвинутых отраслей. Как обстоит дело сейчас?

Сейчас эта технология проникла настолько глубоко, что когда мы начинали ею заниматься пять-шесть лет назад, то даже не предполагали, что она получит настолько широкое распространение в самых разных отраслях. В России Hadoop используют уже более полусотни компаний.

— Что наиболее значимого произошло с Hadoop за это время с технологической точки зрения?

Первое — появилась возможность потоковой загрузки данных с устройств Интернета вещей, тогда как два года назад Hadoop использовался, в основном, для хранения и обработки статичных данных.

Второе — добавлена поддержка графических процессоров и, как следствие, появилась возможность решать задачи глубокого машинного обучения.

Далее, в Hadoop 3 реализована поддержка Docker-контейнеров. Это позволило работать с любыми типами контейнеров, а не только с «собственными» контейнерами Hadoop. Кроме того, раньше для Hadoop была характерна высокая требовательность к ресурсам в связи с необходимостью создания дополнительных копий данных. Эту проблему удалось решить.

— Как будет развиваться Hadoop в дальнейшем?

Если говорить в терминах кривой Gartner, то эта технология вышла на «плато продуктивности». Заказчики поняли, что «умеет» Hadoop и чего «не умеет». Последнее особенно важно, потому что когда Hadoop только появился, многие пытались на нем делать вообще все что придется. И часто разочаровывались — ведь, как правило, технология хороша для решения тех задач, для которых она разрабатывалась. Поэтому был некий закономерный спад, период неудовлетворенности, который уже пройден, и сейчас появилось осознание того, для чего можно использовать Hadoop, для чего — нет. Меняется и сам подход к Hadoop – сейчас заказчику нужен не «дистрибутив вообще», а набор сервисов для решения конкретных задач.

Еще одна важная тенденция — Hadoop уходит в облака. Собственно, одной из причин объединения в конце 2018 года двух крупнейших вендоров, Cloudera и Hortonworks, стало то, что им невозможно было в одиночку противостоять провайдерам типа Amazon, которые начали предоставлять Hadoop из облака.

Постепенно все осваивают возможности Hadoop 3, и я думаю, их активное использование начнется к концу этого года или в начале следующего. Мы тоже готовим версию нашего ПО на Hadoop 3. Она будет уже делаться для новой системы управления, мы уходим от старых систем, в частности от Hortonworks Ambari. Да и сама Hortonworks, вероятно, будет ее поддерживать полтора-два года, не больше.

Ну и, наконец, меняется сам рынок Hadoop. Если пять лет назад было пять или шесть конкурирующих разработчиков дистрибутивов Hadoop, то два года назад осталось трое — Cloudera, Hortonworks и MapR, не считая тех, кто на российском рынке. Сейчас, после объединения Hortonworks и Cloudera, фактически доминирует только одна компания.

Читать также:

Вывели из себя ангела Профессор математики разгромил машину Яндекс.Такси и избил водителя

И результаты этого объединения очень характерны для любого рынка, на котором идет консолидация и появился лидер, устанавливающий правила игры. У Cloudera была проприетарная система управления, у Hortonworks — открытая. И сейчас очевидно, что открытая система практически не развивается.

Это говорит о том, что рынок Hadoop очень сильно коммерциализуется, такой открытости и доступности, какая была раньше, уже не будет. Как и особого выбора, по крайней мере — у западных компаний. Российским заказчикам мы такую возможность обеспечиваем.

— А что появилось нового в продуктах Arendata?

Как и планировалось изначально, мы достроили универсальную платформу хранения данных — Arenadata Enterprise Data Platform. Из последних ее дополнений — в прошлом году мы представили «стриминговый» компонент платформы на базе Kafka. В феврале этого года мы выпустили систему управления Arenadata Cluster Manager. С ее помощью появилась возможность не только управлять платформой, но и организовывать процесс ее развертывания в любых средах — на собственных мощностях, в публичных и частных облаках. Это вызвало очень большой интерес — как у заказчиков, так и у облачных провайдеров, прежде всего российских. Ничего подобного на рынке нет.

— Ни у нас, ни на Западе?

У Amazon и Google есть очень похожие решения, но они вышли немного позже. Мы очень сильно угадали полтора года назад, когда начали разрабатывать этот продукт.

— Вы утверждаете, что создаете экосистему вокруг своего продукта. Что вы имеете в виду?

Сторонние разработчики программного обеспечения могут использовать нашу систему управления развертыванием для установки их продукта на любые поддерживаемые нами инфраструктуры — любой ЦОД, практически любую облачную платформу. Они могут взять доступные API, открыть документацию и создать для этого достаточно простой код. При этом они получат доступ ко всем средствам управления мониторинга, контроля доступов, логирования и т.д.

Тем самым они дадут своим клиентам возможность развернуть сервисы на любых инфраструктурах. Есть уже «дорожная карта», показывающая, какие сервисы будут добавляться в нашу экосистему. Это прежде всего сервисы, предназначенные для хранения и обработки данных. Мы также поддерживаем контакты с разработчиками, которые занимаются развитием проектов с открытым кодом, чтобы помочь им интегрировать свои продукты с нашей платформой.

— Что еще в планах?

Раньше у нас был продукт, который решал конкретную задачу по хранению и обработке данных. Теперь мы создали инструмент для управления средствами работы с данными корпоративного уровня, причем неважно — входят эти средства в состав нашей платформы или нет. И мы можем предложить заказчикам единый механизм управления всеми сервисами работы с данными, которые есть в их компании.

В целом сейчас идет поиск наилучших способов применения нашей разработки. Скажем, крупным компаниям очень тяжело работать с «открытыми» продуктами, им все-таки надо, чтобы эти продукты были доведены до «корпоративного класса», с соответствующим уровнем надежности, безопасности. Совместно с компанией «Яндекс» мы работаем над выпуском такого продукта на рынок и уже летом планируем представить корпоративную версию ClickHouse с необходимой поддержкой, документацией и т.д.

— А на Запад продавать платформу планируете?

Об этом пока рано говорить, продукт очень новый. Но мы выступали в этом году в Нью-Йорке на крупнейшей мировой конференции по PostgreSQL, рассказывали и про наш опыт работы с СУБД Greenplum, созданной на основе PostgreSQL, показывали свою платформу. Интерес был достаточно большой, и я думаю, что у продукта есть и международные перспективы.

Загрузка…