[Облачные вычисления, Big Data] От базы данных к озеру данных: принципиальные различия между двумя технологиями (перевод)
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Lake Berryessa by chateaugrief
В работе с базами и озерами данных есть принципиальные различия. Команда разработки облачного сервиса Mail.ru Cloud Big Data перевела короткую статью об устройстве Data Lake. Она пригодится тем, у кого нет большого опыта работы с реляционными базами данных.
Хранилище и серверы для обработки никак не связаны
Хранилище и сервер для вычислений работают отдельно друг от друга, в этом ключевое отличие озера данных от базы данных.
В традиционных базах данных (и самых первых озерах для Hadoop) хранилище тесно связано с серверами для вычислений: хранилище встроено в сервер или сервер напрямую подключен к хранилищу.
В современной облачной архитектуре озера данных хранилище не зависит от вычислительной платформы. Данные хранят в облачном объектном хранилище — обычно в открытом формате вроде Parquet. Для вычислений используют stateless-серверы, их можно включать и отключать по необходимости.
Преимущества такого подхода:
- Снижение затрат на вычисления. Серверы работают не все время, на период простоя их можно отключить и таким образом снизить затраты на эксплуатацию.
- Масштабируемость. Вам не нужно приобретать оборудование с расчетом на пиковые нагрузки. Количество серверов, процессоров и модулей памяти можно увеличивать или уменьшать в зависимости от потребностей.
- Автономность. Серверы и кластеры для вычислений могут одновременно читать одни и те же данные. Так что разные команды могут параллельно читать данные в одних и тех же кластерах, не мешая друг другу.
Вполне ожидаемый плейсмент от команды перевода
Об устройстве нашего объектного хранилища можно почитать тут: Архитектура S3: 3 года эволюции Mail.ru Cloud Storage.
Сырые данные важнее обработанных
В Database данные берут из исходных систем, преобразуют и загружают в таблицу, после этого их уже не используют. В Data Lake данные остаются навсегда и воспринимаются как ценный актив.
Но бизнес-пользователи, как правило, не могут работать с сырыми данными. Так что данные обрабатывают, чтобы повысить качество, сделать их структурированными и пригодными к работе. Наконец, для этих данных организуют хранилище так, чтобы их могли использовать аналитики и бизнес-пользователи.
Обработка данных в озере. Источник
Бизнес-пользователи видят только обработанные данные и поэтому ценят их гораздо выше, чем сырые, из которых они были получены. Но настоящая ценность озер данных — в необработанных данных, а также методах работы с ними. В некотором смысле обработанные данные похожи на материализованное представление, которое можно обновить в любой момент.
Основные преимущества:
- в любой момент нужные данные можно воссоздать из исходных;
- их можно воссоздать, используя улучшенные методы обработки;
- данные можно представлять по-разному в зависимости от особенностей конкретного анализа.
Схему обработки можно изменить в любой момент
Требования к информации часто меняются, и позднее может потребоваться анализ некоторых данных, которые изначально не вошли в выборку. В случае с Database сырые данные утрачиваются безвозвратно, если их не сохранили.
Озера данных работают по-другому: если сегодня вы решили, что определенные данные не нужно загружать в систему обработки, то ничего страшного не случится — их можно добавить позднее. Все данные надежно хранятся в Data Lake, а исходник с необработанными данными можно воссоздать в любой момент.
Изменение схемы обработки данных. Источник
Основные преимущества:
- вам не нужно создавать одну общую схему обработки данных на все случаи жизни, если она не нужна прямо сейчас;
- вы можете создавать схему обработки данных итерациями, добавляя только те поля, которые нужны прямо сейчас;
- если вам понадобятся дополнительные поля, то вы можете в любой момент добавить их и повторить обработку.
Заключение
Озера данных не заменяют базы данных, у каждого инструмента есть свои сильные и слабые стороны. Нелогично использовать озера данных для OLTP, как и БД — для хранения неструктурированных данных. Надеюсь, моя статья помогла вам разобраться в различиях между этими двумя системами.
Управляемый сервис для обработки больших данных можно получить на платформе Mail.ru Cloud Solutions. Новым пользователям платформы мы дарим 3000 бонусов после полной верификации аккаунта. Вы сможете повторить сценарий из статьи и попробовать работу с объектным S3-хранилищем, DBaaS и другими нашими сервисами.
Еще по теме:
- Вебинар «Современные базы данных для аналитики: почему DWH лучше строить в облаке».
- Форматы файлов в больших данных: краткий ликбез.
- Наш телеграм-канал с новостями технологий.
===========
Источник:
habr.com
===========
===========
Автор оригинала: Gonçalo Trincão Cunha
===========Похожие новости:
- [Python, Алгоритмы, Big Data, Финансы в IT] Инструменты для алготрейдинга на Python. Расчет дневного изменения цены
- [Big Data, Data Engineering] Задачка для дата сайентистов по Data Warehouse
- [Ненормальное программирование, *nix, C, Разработка под Linux] Внутренности Linux: как /proc/self/mem пишет в недоступную для записи память (перевод)
- [Big Data, Учебный процесс в IT] Mail.ru Group открыла новый набор на бесплатное обучение в Академию больших данных MADE
- [Информационная безопасность, Облачные вычисления] Колумбийский университет в Нью-Йорке заявил о разработке «устойчивой к взлому» системы облачного ПО
- [Open source, Big Data, Машинное обучение, Kotlin] KotlinDL 0.2: Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений
- [Apache, Big Data, Hadoop, Data Engineering] Архитектура непрерывной потоковой доставки в Cloudera Flow Management (перевод)
- [Алгоритмы, Lua, Tarantool] Tarantool и кодогенерация на Lua
- [Big Data] Location Intelligence
- [Хостинг, Облачные вычисления, Облачные сервисы, Криптовалюты] Хостер Hetzner запретил майнинг криптовалюты из-за повреждения дисков
Теги для поиска: #_oblachnye_vychislenija (Облачные вычисления), #_big_data, #_mail.ru_cloud_solutions, #_databases, #_data_lake, #_big_data, #_object_storage, #_blog_kompanii_mail.ru_group (
Блог компании Mail.ru Group
), #_oblachnye_vychislenija (
Облачные вычисления
), #_big_data
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:01
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Lake Berryessa by chateaugrief В работе с базами и озерами данных есть принципиальные различия. Команда разработки облачного сервиса Mail.ru Cloud Big Data перевела короткую статью об устройстве Data Lake. Она пригодится тем, у кого нет большого опыта работы с реляционными базами данных. Хранилище и серверы для обработки никак не связаны Хранилище и сервер для вычислений работают отдельно друг от друга, в этом ключевое отличие озера данных от базы данных. В традиционных базах данных (и самых первых озерах для Hadoop) хранилище тесно связано с серверами для вычислений: хранилище встроено в сервер или сервер напрямую подключен к хранилищу. В современной облачной архитектуре озера данных хранилище не зависит от вычислительной платформы. Данные хранят в облачном объектном хранилище — обычно в открытом формате вроде Parquet. Для вычислений используют stateless-серверы, их можно включать и отключать по необходимости. Преимущества такого подхода:
Вполне ожидаемый плейсмент от команды перевода
Об устройстве нашего объектного хранилища можно почитать тут: Архитектура S3: 3 года эволюции Mail.ru Cloud Storage. Сырые данные важнее обработанных В Database данные берут из исходных систем, преобразуют и загружают в таблицу, после этого их уже не используют. В Data Lake данные остаются навсегда и воспринимаются как ценный актив. Но бизнес-пользователи, как правило, не могут работать с сырыми данными. Так что данные обрабатывают, чтобы повысить качество, сделать их структурированными и пригодными к работе. Наконец, для этих данных организуют хранилище так, чтобы их могли использовать аналитики и бизнес-пользователи. Обработка данных в озере. Источник Бизнес-пользователи видят только обработанные данные и поэтому ценят их гораздо выше, чем сырые, из которых они были получены. Но настоящая ценность озер данных — в необработанных данных, а также методах работы с ними. В некотором смысле обработанные данные похожи на материализованное представление, которое можно обновить в любой момент. Основные преимущества:
Схему обработки можно изменить в любой момент Требования к информации часто меняются, и позднее может потребоваться анализ некоторых данных, которые изначально не вошли в выборку. В случае с Database сырые данные утрачиваются безвозвратно, если их не сохранили. Озера данных работают по-другому: если сегодня вы решили, что определенные данные не нужно загружать в систему обработки, то ничего страшного не случится — их можно добавить позднее. Все данные надежно хранятся в Data Lake, а исходник с необработанными данными можно воссоздать в любой момент. Изменение схемы обработки данных. Источник Основные преимущества:
Заключение Озера данных не заменяют базы данных, у каждого инструмента есть свои сильные и слабые стороны. Нелогично использовать озера данных для OLTP, как и БД — для хранения неструктурированных данных. Надеюсь, моя статья помогла вам разобраться в различиях между этими двумя системами. Управляемый сервис для обработки больших данных можно получить на платформе Mail.ru Cloud Solutions. Новым пользователям платформы мы дарим 3000 бонусов после полной верификации аккаунта. Вы сможете повторить сценарий из статьи и попробовать работу с объектным S3-хранилищем, DBaaS и другими нашими сервисами.
=========== Источник: habr.com =========== =========== Автор оригинала: Gonçalo Trincão Cunha ===========Похожие новости:
Блог компании Mail.ru Group ), #_oblachnye_vychislenija ( Облачные вычисления ), #_big_data |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:01
Часовой пояс: UTC + 5