Релиз платформы для распределённой обработки данных Apache Hadoop 3.3
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
После полутора лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.
В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.
Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
Основные изменения в Apache Hadoop 3.3:
- Добавлена поддержка платформ на основе архитектуры ARM.
- Реализация формата Protobuf (Protocol buffers), используемого для сериализации структурированных данных, обновлена до выпуска 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
- Расширены возможности коннектора S3A: добавлена поддержка аутентификации при помощи токенов (Delegation Token), улучшена поддержка кэширования ответов с кодом 404, увеличена производительность S3guard, повышена надёжность работы.
- В файловой системе ABFS решены проблемы с автоматическим тюнингом.
- Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к объектному хранилищу COS.
- Добавлена полная поддержка Java 11.
- Стабилизирована реализация HDFS RBF (Router-based Federation). В HDFS Router добавлены средства управления безопасностью.
- Добавлен сервис DNS Resolution для определения клиентом серверов через DNS по именам узлов, позволяющий обойтись без перечисления всех хостов в настройках.
- Добавлена поддержка планирования запуска оппортунистических контейнеров через централизованный менеджер ресурсов (ResourceManager), в том числе с возможностью распределения контейнеров с учётом нагрузки каждого узла.
- Добавлен каталог приложений YARN (Yet Another Resource Negotiator) с возможностью поиска.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://blogs.apache.org/hadoo...)
- OpenNews: Фонд Apache опубликовал отчёт за 2020 финансовый год
- OpenNews: В ходе атаки Meow удалено около 4000 общедоступных БД Elasticsearch и MongoDB
- OpenNews: Доступна система распределённых вычислений Apache Storm 2.0
- OpenNews: Релиз платформы для распределённой обработки данных Apache Hadoop 3.2
- OpenNews: Выпуск СУБД ScyllaDB 3.0, совместимой с Apache Cassandra
Похожие новости:
- [Hadoop, Алгоритмы, Хранение данных] Форматы файлов в больших данных: краткий ликбез (перевод)
- [Big Data, Hadoop] Топ 10 заблуждений о переносе Hadoop в облако
- [Big Data, Hadoop] Reach Out Top Hadoop Consulting Companies To Leverage Big Data In 2020
- [Java, Apache, Хранение данных, Hadoop] Apache Bigtop и выбор Hadoop-дистрибутива сегодня
- [Big Data] Выбор базы данных для аналитики (перевод)
- [DevOps, Hadoop, Распределённые системы] «Hadoop. ZooKeeper» из серии Технострима Mail.Ru Group «Методы распределенной обработки больших объемов данных в Hadoop»
- [Open source, Java, Big Data, Hadoop, Data Engineering] Introducing One Ring — an open-source pipeline for all your Spark applications
- [SQL, Apache, Big Data, Hadoop, Data Engineering] SQL аналитика в масштабе: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse (перевод)
- [Высокая производительность, Big Data, Хранилища данных, Hadoop] Битва двух якодзун, или Cassandra vs HBase. Опыт команды Сбербанка
- [Big Data, Hadoop] Apache Spark, lazy evaluation и многостраничные SQL запросы
Теги для поиска: #_hadoop
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 04:13
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
После полутора лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных. В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce. Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день). Основные изменения в Apache Hadoop 3.3:
=========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 04:13
Часовой пояс: UTC + 5