[Хранение данных, Искусственный интеллект] Hadoop мертв, да зравствует Hadoop! Или что новенького в Cloudera?
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.Что новенького в Cloudera?Пожалуй, начнём немного издалека для тех, кто не так активно следит за развитием проектов экосистемы Hadoop: компании Hortonworks и Cloudera объединились в 2019 году под общим названием Cloudera. С этого момента началась новая ветка в истории развития дистрибутива Hadoop, так как усилиями уже общей команды стартовала работа над новой сборкой, которая включила в себя всё лучшее из обоих миров. В 2019 году состоялся первый релиз нового дистрибутива Cloudera Data Platform (дальше - CDP), в который вошло более 50 лучших в своем классе инструментов с открытым исходным кодом для работы с большими данными. Так что же такого интересного предлагает Cloudera Data Platform? В рамках платформы мы предоставляем корпоративное облако данных для данных любого типа, в любой инстраструктуре, от периферии до ИИ. CDP работает в различных средах: локальной, в частном и публичном облаке, или в гибридном варианте архитектуры.
Теперь более подробно о названиях всех вариантах дистрибутива. Версия для традиционной локальной инсталляции на железо называется CDP Private Cloud Base. Она является фундаментом для расширения локальной архитектуры до частного облака (поэтому и имеет такое название). Полноценная же архитектура частного облака, куда входит часть Base (уровень хранилища) и аналитические приложения на Kubernetes (уровень вычислений), называется CDP Private Cloud Plus/Max. С версией для публичных облаков всё проще - CDP Public Cloud. При этом это полноценный PaaS, тесно интегрированный с нативными сервисами большой тройки: AWS, Azure и GCP. Благодаря единой панели управления, фреймворку Cloudera SDX (Shared Data Experience) и неизменному набору сервисов, работа с платформой выглядит одинаково, независимо от среды развёртывания, что позволяет реализовать полноценную гибридную архитектуру. При этом набор доступных сервисов позволяет работать с данными любого типа от периферии до ИИ с обеспечением безопасности корпоративного уровня (шифрование данных в пути и покое, полная керберизация кластера) и data governance:
Также в самом наборе инструментов появились интересные новинки:
- С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021.
- В конце лета прошлого года в дистрибутив был добавлен доработанный и готовый к работе в продуктиве Apache Ozone - S3 совместимое объектное хранилище, своего рода преемник HDFS, который закрывает многие из его слабых мест и позволяет делать гораздо более плотные конфигурации узлов (мы тестировали 350TB на узел - стабильная работа всех нагрузок).
- После приобретения компании Arcadia Data в стеке появился полноценный BI компонент Cloudera Data Visualization, работающий со всеми основными движками аналитики данных: Hive/Impala, Solr, Druid.
- Приобретение компании Eventador в 2020 году позволило добавить функционал аналитики потоковых данных с помощью SQL на базе Flink - теперь с потоками данных из Кафка можно работать как со стандартными таблицами в СУБД и создавать материализованные представления для, например, передачи трансформированных потоков обратно в Кафку.
- В начале этого года Cloudera объявила о включении проекта Apache Iceberg в дистрибутив, что позволит ещё более гибко работать с огромными наборами данных благодаря снапшотам, поддержке эволюции схемы и возможностям откатов к предыдущим версиям по времени. Изначально архитектура частного облака поддерживалась только на базе платформы Red Hat OpenShift, но в ближайшее время выходит CDP Private Cloud Plus с поддержкой встроенного ванильного кубернетеса, что значительно упростит инсталляцию и ускорит внедрение гибридной архитектуры. Пользователи смогут быстрее начинать работу с данными, получат все преимущества облачной инфраструктуры, и при этом данные будут храниться в локальном ЦОДе. Как вы можете видеть дистрибутив Hadoop от Cloudera активно развивается и эволюционирует, у нас большие планы на этот год. В конце хотели бы сразу ответить на пару вопросов, которые могли у вас появиться во время прочтения этой статьи.Есть ли бесплатная версия дистрибутива, как это было раньше с HDP/CDH?
Выпуск бесплатной версии для коммерческого использования дистрибутива CDP не планируется. На данный момент можно скачать триальную версию с сайта или получить временную лицензию через аккаунт менеджера, а также рассматривается возможный выпуск версии для образовательных целей в будущем. А что же со всеми любимыми сборками HDP/CDH? Эти дистрибутивы не будут обновляться и постепенно заканчивают свой жизненный цикл поддержки (HDP2x/CDH5x уже закончили с концом 2020 года, такая же судьба настигнет HDP3/CDH6 в скором времени). Более того, репозитории даже этих версий уже не доступны для публичного доступа - для этого теперь также требуется лицензия. В тексте упоминался ИИ, что платформа предлагает для работы с моделями МО кроме Zeppelin?В дистрибутиве есть дополнительный компонент - Cloudera Machine Learning (также известный как Cloudera Data Science Workbench), отвечающий за организацию полного цикла работы над моделями МО. Это полноценная MLOps платформа на кубере с центральным репозиторием метаданных, версионированием моделей, возможностью совместной работы в любом IDE (Jupyter Lab/Notebook включён по умолчанию) и любыми библиотеками, безопасным соединением с основным кластером и возможностью внедрения готовых моделей как функций в бизнес-процессы через REST API. Пожалуйста, оставляйте свои комментарии к статье, какие еще вопросы о наших продуктах и технологиях вам было бы интересно обсудить?
===========
Источник:
habr.com
===========
Похожие новости:
- [Хостинг, Хранение данных, Хранилища данных, Периферия] Кто использует магнитную плёнку и почему за ней будущее
- [Искусственный интеллект, Будущее здесь] Как скоро «цифровые люди» захватят приложения для знакомств? (перевод)
- [Python, Машинное обучение, Искусственный интеллект, Natural Language Processing] Краткость — сестра таланта: Как сделать Transformer/Summarizer на Trax
- [Информационная безопасность, Сетевые технологии, Исследования и прогнозы в IT, Искусственный интеллект, Интернет вещей] Top 7 Technology Trends to Look out for in 2021
- [Искусственный интеллект] В МТИ придумали, как с помощью машинного обучения уменьшить отходы листового металла
- [Промышленное программирование, Бизнес-модели, Искусственный интеллект, IT-компании] Huawei начнет внедрять ИИ-технологии на свинофермах и в шахтах
- [Искусственный интеллект] Вредоносный ИИ: реальность угрозы
- [Спортивное программирование, Программирование, Разработка игр, Искусственный интеллект] Устройство игрового бота: 16-е место в финале Russian AI Cup 2020 (и 5-е после)
- [Серверное администрирование, Хранение данных, Настольные компьютеры, Kubernetes] 4 обучающих вебинара Dell Technologies: автоматизация, ноутбуки, HCI и Kubernetes. Регистрация открыта
- [Машинное обучение, Искусственный интеллект, Химия] Свежий взгляд на химические реакции
Теги для поиска: #_hranenie_dannyh (Хранение данных), #_iskusstvennyj_intellekt (Искусственный интеллект), #_iskustvennyj_intellekt (искуственный интеллект), #_distributiv (дистрибутив), #_rabota_s_dannymi (работа с данными), #_blog_kompanii_cloudera (
Блог компании Cloudera
), #_hranenie_dannyh (
Хранение данных
), #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 20:12
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.Что новенького в Cloudera?Пожалуй, начнём немного издалека для тех, кто не так активно следит за развитием проектов экосистемы Hadoop: компании Hortonworks и Cloudera объединились в 2019 году под общим названием Cloudera. С этого момента началась новая ветка в истории развития дистрибутива Hadoop, так как усилиями уже общей команды стартовала работа над новой сборкой, которая включила в себя всё лучшее из обоих миров. В 2019 году состоялся первый релиз нового дистрибутива Cloudera Data Platform (дальше - CDP), в который вошло более 50 лучших в своем классе инструментов с открытым исходным кодом для работы с большими данными. Так что же такого интересного предлагает Cloudera Data Platform? В рамках платформы мы предоставляем корпоративное облако данных для данных любого типа, в любой инстраструктуре, от периферии до ИИ. CDP работает в различных средах: локальной, в частном и публичном облаке, или в гибридном варианте архитектуры. Теперь более подробно о названиях всех вариантах дистрибутива. Версия для традиционной локальной инсталляции на железо называется CDP Private Cloud Base. Она является фундаментом для расширения локальной архитектуры до частного облака (поэтому и имеет такое название). Полноценная же архитектура частного облака, куда входит часть Base (уровень хранилища) и аналитические приложения на Kubernetes (уровень вычислений), называется CDP Private Cloud Plus/Max. С версией для публичных облаков всё проще - CDP Public Cloud. При этом это полноценный PaaS, тесно интегрированный с нативными сервисами большой тройки: AWS, Azure и GCP. Благодаря единой панели управления, фреймворку Cloudera SDX (Shared Data Experience) и неизменному набору сервисов, работа с платформой выглядит одинаково, независимо от среды развёртывания, что позволяет реализовать полноценную гибридную архитектуру. При этом набор доступных сервисов позволяет работать с данными любого типа от периферии до ИИ с обеспечением безопасности корпоративного уровня (шифрование данных в пути и покое, полная керберизация кластера) и data governance: Также в самом наборе инструментов появились интересные новинки: - С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021. - В конце лета прошлого года в дистрибутив был добавлен доработанный и готовый к работе в продуктиве Apache Ozone - S3 совместимое объектное хранилище, своего рода преемник HDFS, который закрывает многие из его слабых мест и позволяет делать гораздо более плотные конфигурации узлов (мы тестировали 350TB на узел - стабильная работа всех нагрузок). - После приобретения компании Arcadia Data в стеке появился полноценный BI компонент Cloudera Data Visualization, работающий со всеми основными движками аналитики данных: Hive/Impala, Solr, Druid. - Приобретение компании Eventador в 2020 году позволило добавить функционал аналитики потоковых данных с помощью SQL на базе Flink - теперь с потоками данных из Кафка можно работать как со стандартными таблицами в СУБД и создавать материализованные представления для, например, передачи трансформированных потоков обратно в Кафку. - В начале этого года Cloudera объявила о включении проекта Apache Iceberg в дистрибутив, что позволит ещё более гибко работать с огромными наборами данных благодаря снапшотам, поддержке эволюции схемы и возможностям откатов к предыдущим версиям по времени. Изначально архитектура частного облака поддерживалась только на базе платформы Red Hat OpenShift, но в ближайшее время выходит CDP Private Cloud Plus с поддержкой встроенного ванильного кубернетеса, что значительно упростит инсталляцию и ускорит внедрение гибридной архитектуры. Пользователи смогут быстрее начинать работу с данными, получат все преимущества облачной инфраструктуры, и при этом данные будут храниться в локальном ЦОДе. Как вы можете видеть дистрибутив Hadoop от Cloudera активно развивается и эволюционирует, у нас большие планы на этот год. В конце хотели бы сразу ответить на пару вопросов, которые могли у вас появиться во время прочтения этой статьи.Есть ли бесплатная версия дистрибутива, как это было раньше с HDP/CDH? Выпуск бесплатной версии для коммерческого использования дистрибутива CDP не планируется. На данный момент можно скачать триальную версию с сайта или получить временную лицензию через аккаунт менеджера, а также рассматривается возможный выпуск версии для образовательных целей в будущем. А что же со всеми любимыми сборками HDP/CDH? Эти дистрибутивы не будут обновляться и постепенно заканчивают свой жизненный цикл поддержки (HDP2x/CDH5x уже закончили с концом 2020 года, такая же судьба настигнет HDP3/CDH6 в скором времени). Более того, репозитории даже этих версий уже не доступны для публичного доступа - для этого теперь также требуется лицензия. В тексте упоминался ИИ, что платформа предлагает для работы с моделями МО кроме Zeppelin?В дистрибутиве есть дополнительный компонент - Cloudera Machine Learning (также известный как Cloudera Data Science Workbench), отвечающий за организацию полного цикла работы над моделями МО. Это полноценная MLOps платформа на кубере с центральным репозиторием метаданных, версионированием моделей, возможностью совместной работы в любом IDE (Jupyter Lab/Notebook включён по умолчанию) и любыми библиотеками, безопасным соединением с основным кластером и возможностью внедрения готовых моделей как функций в бизнес-процессы через REST API. Пожалуйста, оставляйте свои комментарии к статье, какие еще вопросы о наших продуктах и технологиях вам было бы интересно обсудить? =========== Источник: habr.com =========== Похожие новости:
Блог компании Cloudera ), #_hranenie_dannyh ( Хранение данных ), #_iskusstvennyj_intellekt ( Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 20:12
Часовой пояс: UTC + 5