Релиз платформы для распределённой обработки данных Apache Hadoop 3.3

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
02-Авг-2020 12:30

После полутора лет разработки организация Apache Software Foundation опубликовала релиз Apache Hadoop 3.3.0, свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.
В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.
Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
Основные изменения в Apache Hadoop 3.3:
  • Добавлена поддержка платформ на основе архитектуры ARM.
  • Реализация формата Protobuf (Protocol buffers), используемого для сериализации структурированных данных, обновлена до выпуска 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
  • Расширены возможности коннектора S3A: добавлена поддержка аутентификации при помощи токенов (Delegation Token), улучшена поддержка кэширования ответов с кодом 404, увеличена производительность S3guard, повышена надёжность работы.
  • В файловой системе ABFS решены проблемы с автоматическим тюнингом.
  • Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к объектному хранилищу COS.
  • Добавлена полная поддержка Java 11.
  • Стабилизирована реализация HDFS RBF (Router-based Federation). В HDFS Router добавлены средства управления безопасностью.
  • Добавлен сервис DNS Resolution для определения клиентом серверов через DNS по именам узлов, позволяющий обойтись без перечисления всех хостов в настройках.
  • Добавлена поддержка планирования запуска оппортунистических контейнеров через централизованный менеджер ресурсов (ResourceManager), в том числе с возможностью распределения контейнеров с учётом нагрузки каждого узла.
  • Добавлен каталог приложений YARN (Yet Another Resource Negotiator) с возможностью поиска.

===========
Источник:
OpenNet.RU
===========

Похожие новости: Теги для поиска: #_hadoop
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 23-Ноя 04:13
Часовой пояс: UTC + 5