[Data Mining, Big Data, Хранение данных, Хранилища данных] Озеро, хранилище и витрина данных (перевод)

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
29-Апр-2021 17:32

Рассмотрим три типа облачных хранилищ данных, их различия и области применения.

Озеро данных
Озеро данных (data lake) — это большой репозиторий необработанных исходных данных, как неструктурированных, так и частично структурированных. Данные собираются из различных источников и просто хранятся. Они не модифицируются под определенную цель и не преобразуются в какой-либо формат. Для анализа этих данных требуется длительная предварительная подготовка, очистка и форматирование для придания им однородности. Озера данных — отличные ресурсы для городских администраций и прочих организаций, которые хранят информацию, связанную с перебоями в работе инфраструктуры, дорожным движением, преступностью или демографией. Данные можно использовать в дальнейшем для внесения изменений в бюджет или пересмотра ресурсов, выделенных коммунальным или экстренным службам.
Хранилище данных
Хранилище данных (data warehouse) представляет собой данные, агрегированные из разных источников в единый центральный репозиторий, который унифицирует их по качеству и формату. Специалисты по работе с данными могут использовать данные из хранилища в таких сферах, как data mining, искусственный интеллект (ИИ), машинное обучение и, конечно, в бизнес-аналитике. Хранилища данных можно использовать в больших городах для сбора информации об электронных транзакциях, поступающей от различных департаментов, включая данные о штрафах за превышение скорости, уплате акцизов и т. д. Хранилища также могут использовать разработчики для сбора терабайтов данных, генерируемых автомобильными датчиками. Это поможет им принимать правильные решения при разработке технологий для автономного вождения.
Витрина данных
Витрина данных (data mart) — это хранилище данных, предназначенное для определенного круга пользователей в компании или ее подразделении. Витрина данных может использоваться отделом маркетинга производственной компании для определения целевой аудитории при разработке маркетинговых планов. Также производственный отдел может применять ее для анализа производительности и количества ошибок, чтобы создать условия для непрерывного совершенствования процессов. Наборы данных в витрине данных часто используются в режиме реального времени для аналитики и получения практических результатов.
Озеро, хранилище и витрина данных: ключевые различия
Все упомянутые репозитории используются для хранения данных, но между ними есть существенные различия. Например, хранилище и озеро данных — крупные репозитории, однако озеро обычно более рентабельно с точки зрения затрат на внедрение и обслуживание, поскольку в нем по большей части хранятся неструктурированные данные. 
За последние несколько лет архитектура озер данных эволюционировала, и теперь способна поддерживать бо́льшие объемы данных и облачные вычисления. Большие объемы данных поступают от разных источников в централизованный репозиторий. 
Хранилище данных можно организовать одним из трех способов:
  • Как управляемый сервис, предлагаемый поставщиками облачных решений.
  • Как программное решение с управлением внутри компании и соблюдением строгих протоколов безопасности, которые необходимы при следовании нормативным требованиям.
  • Как устройство, которое обычно предлагается в форме готового решения, сочетающего в себе программное и аппаратное обеспечение.

Данные в хранилище легче использовать для различных целей, чем данные в озере. Это связано с тем, что данные в хранилище структурированы, их легче извлекать и анализировать.
Витрина данных содержит небольшой по сравнению с хранилищем и озером объем данных, которые разбиты на категории для применения конкретной группой людей или подразделением компании. Витрина данных может быть представлена в виде различных схем (звезды, снежинки или свода), которые определяются логической структурой данных. Формат свода данных (data vault) является самым гибким, универсальным и масштабируемым.
Существует три типа витрин данных:
  • Зависимая витрина данных, которая состоит из частей корпоративного хранилища данных. В ней хранятся комплекты первичных данных хранилища.
  • Независимая витрина данных, которая представляет собой отдельную систему, относящуюся к определенной части компании.
  • Гибридная витрина данных, которая включает в себя данные из хранилища и независимых источников. Этот тип витрин обычно отличается более быстрым доступом к данным и удобным пользовательским интерфейсом.

Выбор типа и структуры репозитория данных во многом зависит от потребностей и нужд компании. Если для вас это актуально, воспользуйтесь преимуществами гибридного облачного хранилища, которое отличается универсальностью и возможностью масштабирования, а также более комплексного, взвешенного подхода к решению проблем и принятию решений.
IBM предлагает различные решения для облачного хранения и интеллектуального анализа данных.

оригинал
Танмай Синха (Tanmay Sinha)
Директор программы, Db2 Portfolio
Ссылка на блог:https://www.ibm.com/cloud/blog/cloud-data-lake-vs-data-warehouse-vs-data-mart
===========
Источник:
habr.com
===========

===========
Автор оригинала: Танмай Синха (Tanmay Sinha), Директор программы, Db2 Portfolio
===========
Похожие новости: Теги для поиска: #_data_mining, #_big_data, #_hranenie_dannyh (Хранение данных), #_hranilischa_dannyh (Хранилища данных), #_ibm, #_database, #_storage, #_oblachnye_hranilischa (облачные хранилища), #_gibridnye_oblachnye_hranilischa (гибридные облачные хранилища), #_blog_kompanii_ibm (
Блог компании IBM
)
, #_data_mining, #_big_data, #_hranenie_dannyh (
Хранение данных
)
, #_hranilischa_dannyh (
Хранилища данных
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 13:36
Часовой пояс: UTC + 5