[Data Mining, Big Data, Хранение данных, Хранилища данных] Озеро, хранилище и витрина данных (перевод)
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Рассмотрим три типа облачных хранилищ данных, их различия и области применения.
Озеро данных
Озеро данных (data lake) — это большой репозиторий необработанных исходных данных, как неструктурированных, так и частично структурированных. Данные собираются из различных источников и просто хранятся. Они не модифицируются под определенную цель и не преобразуются в какой-либо формат. Для анализа этих данных требуется длительная предварительная подготовка, очистка и форматирование для придания им однородности. Озера данных — отличные ресурсы для городских администраций и прочих организаций, которые хранят информацию, связанную с перебоями в работе инфраструктуры, дорожным движением, преступностью или демографией. Данные можно использовать в дальнейшем для внесения изменений в бюджет или пересмотра ресурсов, выделенных коммунальным или экстренным службам.
Хранилище данных
Хранилище данных (data warehouse) представляет собой данные, агрегированные из разных источников в единый центральный репозиторий, который унифицирует их по качеству и формату. Специалисты по работе с данными могут использовать данные из хранилища в таких сферах, как data mining, искусственный интеллект (ИИ), машинное обучение и, конечно, в бизнес-аналитике. Хранилища данных можно использовать в больших городах для сбора информации об электронных транзакциях, поступающей от различных департаментов, включая данные о штрафах за превышение скорости, уплате акцизов и т. д. Хранилища также могут использовать разработчики для сбора терабайтов данных, генерируемых автомобильными датчиками. Это поможет им принимать правильные решения при разработке технологий для автономного вождения.
Витрина данных
Витрина данных (data mart) — это хранилище данных, предназначенное для определенного круга пользователей в компании или ее подразделении. Витрина данных может использоваться отделом маркетинга производственной компании для определения целевой аудитории при разработке маркетинговых планов. Также производственный отдел может применять ее для анализа производительности и количества ошибок, чтобы создать условия для непрерывного совершенствования процессов. Наборы данных в витрине данных часто используются в режиме реального времени для аналитики и получения практических результатов.
Озеро, хранилище и витрина данных: ключевые различия
Все упомянутые репозитории используются для хранения данных, но между ними есть существенные различия. Например, хранилище и озеро данных — крупные репозитории, однако озеро обычно более рентабельно с точки зрения затрат на внедрение и обслуживание, поскольку в нем по большей части хранятся неструктурированные данные.
За последние несколько лет архитектура озер данных эволюционировала, и теперь способна поддерживать бо́льшие объемы данных и облачные вычисления. Большие объемы данных поступают от разных источников в централизованный репозиторий.
Хранилище данных можно организовать одним из трех способов:
- Как управляемый сервис, предлагаемый поставщиками облачных решений.
- Как программное решение с управлением внутри компании и соблюдением строгих протоколов безопасности, которые необходимы при следовании нормативным требованиям.
- Как устройство, которое обычно предлагается в форме готового решения, сочетающего в себе программное и аппаратное обеспечение.
Данные в хранилище легче использовать для различных целей, чем данные в озере. Это связано с тем, что данные в хранилище структурированы, их легче извлекать и анализировать.
Витрина данных содержит небольшой по сравнению с хранилищем и озером объем данных, которые разбиты на категории для применения конкретной группой людей или подразделением компании. Витрина данных может быть представлена в виде различных схем (звезды, снежинки или свода), которые определяются логической структурой данных. Формат свода данных (data vault) является самым гибким, универсальным и масштабируемым.
Существует три типа витрин данных:
- Зависимая витрина данных, которая состоит из частей корпоративного хранилища данных. В ней хранятся комплекты первичных данных хранилища.
- Независимая витрина данных, которая представляет собой отдельную систему, относящуюся к определенной части компании.
- Гибридная витрина данных, которая включает в себя данные из хранилища и независимых источников. Этот тип витрин обычно отличается более быстрым доступом к данным и удобным пользовательским интерфейсом.
Выбор типа и структуры репозитория данных во многом зависит от потребностей и нужд компании. Если для вас это актуально, воспользуйтесь преимуществами гибридного облачного хранилища, которое отличается универсальностью и возможностью масштабирования, а также более комплексного, взвешенного подхода к решению проблем и принятию решений.
IBM предлагает различные решения для облачного хранения и интеллектуального анализа данных.
оригинал
Танмай Синха (Tanmay Sinha)
Директор программы, Db2 Portfolio
Ссылка на блог:https://www.ibm.com/cloud/blog/cloud-data-lake-vs-data-warehouse-vs-data-mart
===========
Источник:
habr.com
===========
===========
Автор оригинала: Танмай Синха (Tanmay Sinha), Директор программы, Db2 Portfolio
===========Похожие новости:
- [Информационная безопасность, Платежные системы, Big Data, Хранение данных] В России активизируется сбор биометрических данных граждан для госуслуг и коммерции
- [Программирование, Big Data, Конференции] Мозги на переплавку: обзор конференции Data Fusion
- [Анализ и проектирование систем, Big Data, Хранилища данных, Управление проектами] Создаём компанию мечты: управление качеством данных
- [Big Data, Квантовые технологии] Что такое квантовые фонды и почему в них уходят лучшие разработчики?
- [Data Mining, Big Data, Бизнес-модели] Бизнес-аналитика в управлении рисками: Некоторые последние достижения (2014 год) (перевод)
- [Хранение данных, Криптовалюты] Разговор с майнером Chia, имеющим 1ПБ ёмкости
- [Big Data, Машинное обучение, Искусственный интеллект, IT-компании] Контролируемое и неконтролируемое обучение: в чем разница? (перевод)
- [Хранение данных, Накопители] Три зеттабайта: действительно так много?
- [Децентрализованные сети, JavaScript, Node.JS, Хранилища данных] Musiphone — децентрализованный музыкальный плеер
- [Виртуализация, Машинное обучение, DevOps, Data Engineering] Apache Spark 3.1: Spark on Kubernetes теперь общедоступен (перевод)
Теги для поиска: #_data_mining, #_big_data, #_hranenie_dannyh (Хранение данных), #_hranilischa_dannyh (Хранилища данных), #_ibm, #_database, #_storage, #_oblachnye_hranilischa (облачные хранилища), #_gibridnye_oblachnye_hranilischa (гибридные облачные хранилища), #_blog_kompanii_ibm (
Блог компании IBM
), #_data_mining, #_big_data, #_hranenie_dannyh (
Хранение данных
), #_hranilischa_dannyh (
Хранилища данных
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:16
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Рассмотрим три типа облачных хранилищ данных, их различия и области применения. Озеро данных Озеро данных (data lake) — это большой репозиторий необработанных исходных данных, как неструктурированных, так и частично структурированных. Данные собираются из различных источников и просто хранятся. Они не модифицируются под определенную цель и не преобразуются в какой-либо формат. Для анализа этих данных требуется длительная предварительная подготовка, очистка и форматирование для придания им однородности. Озера данных — отличные ресурсы для городских администраций и прочих организаций, которые хранят информацию, связанную с перебоями в работе инфраструктуры, дорожным движением, преступностью или демографией. Данные можно использовать в дальнейшем для внесения изменений в бюджет или пересмотра ресурсов, выделенных коммунальным или экстренным службам. Хранилище данных Хранилище данных (data warehouse) представляет собой данные, агрегированные из разных источников в единый центральный репозиторий, который унифицирует их по качеству и формату. Специалисты по работе с данными могут использовать данные из хранилища в таких сферах, как data mining, искусственный интеллект (ИИ), машинное обучение и, конечно, в бизнес-аналитике. Хранилища данных можно использовать в больших городах для сбора информации об электронных транзакциях, поступающей от различных департаментов, включая данные о штрафах за превышение скорости, уплате акцизов и т. д. Хранилища также могут использовать разработчики для сбора терабайтов данных, генерируемых автомобильными датчиками. Это поможет им принимать правильные решения при разработке технологий для автономного вождения. Витрина данных Витрина данных (data mart) — это хранилище данных, предназначенное для определенного круга пользователей в компании или ее подразделении. Витрина данных может использоваться отделом маркетинга производственной компании для определения целевой аудитории при разработке маркетинговых планов. Также производственный отдел может применять ее для анализа производительности и количества ошибок, чтобы создать условия для непрерывного совершенствования процессов. Наборы данных в витрине данных часто используются в режиме реального времени для аналитики и получения практических результатов. Озеро, хранилище и витрина данных: ключевые различия Все упомянутые репозитории используются для хранения данных, но между ними есть существенные различия. Например, хранилище и озеро данных — крупные репозитории, однако озеро обычно более рентабельно с точки зрения затрат на внедрение и обслуживание, поскольку в нем по большей части хранятся неструктурированные данные. За последние несколько лет архитектура озер данных эволюционировала, и теперь способна поддерживать бо́льшие объемы данных и облачные вычисления. Большие объемы данных поступают от разных источников в централизованный репозиторий. Хранилище данных можно организовать одним из трех способов:
Данные в хранилище легче использовать для различных целей, чем данные в озере. Это связано с тем, что данные в хранилище структурированы, их легче извлекать и анализировать. Витрина данных содержит небольшой по сравнению с хранилищем и озером объем данных, которые разбиты на категории для применения конкретной группой людей или подразделением компании. Витрина данных может быть представлена в виде различных схем (звезды, снежинки или свода), которые определяются логической структурой данных. Формат свода данных (data vault) является самым гибким, универсальным и масштабируемым. Существует три типа витрин данных:
Выбор типа и структуры репозитория данных во многом зависит от потребностей и нужд компании. Если для вас это актуально, воспользуйтесь преимуществами гибридного облачного хранилища, которое отличается универсальностью и возможностью масштабирования, а также более комплексного, взвешенного подхода к решению проблем и принятию решений. IBM предлагает различные решения для облачного хранения и интеллектуального анализа данных. оригинал Танмай Синха (Tanmay Sinha) Директор программы, Db2 Portfolio Ссылка на блог:https://www.ibm.com/cloud/blog/cloud-data-lake-vs-data-warehouse-vs-data-mart =========== Источник: habr.com =========== =========== Автор оригинала: Танмай Синха (Tanmay Sinha), Директор программы, Db2 Portfolio ===========Похожие новости:
Блог компании IBM ), #_data_mining, #_big_data, #_hranenie_dannyh ( Хранение данных ), #_hranilischa_dannyh ( Хранилища данных ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:16
Часовой пояс: UTC + 5