[Облачные вычисления, Big Data, Хранение данных, Data Engineering] Следующий этап: построение конвейера данных от периферии до аналитики

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
07-Июл-2021 12:31

Это вторая часть данной серии блогов. Часть 1 называется: «Цифровая трансформация - это путь данных от периферии до аналитики» (Digital Transformation is a Data Journey From Edge to Insight)В данной статье рассматриваются данные о производстве, эксплуатации и продажах продукции производителя подключенных транспортных средств. Эти данные проходят разные этапы и преобразования, которые обычно характерны для крупной производственной компании, находящейся на переднем крае современных технологий. В рамках блога мы будем рассказывать о вымышленной компании по производству подключенных транспортных средств (электромобилей) - The Electric Car Company (ECC). Для этого ECC использует платформу данных Cloudera Data Platform (CDP). Она применяет Cloudera Data Platform  для прогнозирования событий и контроля процесса производства автомобилей на своих заводах по всему миру.После завершения этапа сбора данных, в котором использовался Apache NiFi, следующим шагом в жизненном цикле данных ECC является их обогащение. На более поздних этапах жизненного цикла данных ECC обогащает собранные данные и делает их доступными для использования в анализе и создании моделей. Ниже приведен полный набор шагов в жизненном цикле данных, и каждому такому шагу в жизненном цикле будет соответствовать публикация в блоге (см. Рис. 1):1. Сбор данных - прием данных и их мониторинг на периферии (будь то промышленные датчики или люди в автосалоне).2. Обогащение данных - обработка, агрегирование и управление конвейером данных для подготовки данных к дальнейшему анализу.3. Отчетность - предоставление бизнес-информации (в качестве примеров - анализ и прогнозирование продаж, составление бюджета).4. Предоставление - контроль и ведение основных бизнес-операций (дилерские операции, мониторинг производства).5. Предиктивная аналитика - прогнозная аналитика на основе искусственного интеллекта и машинного обучения (в качестве примеров - профилактическое обслуживание, оптимизация запасов на основе спроса).6. Безопасность и управление - интегрированный набор технологий безопасности и управления на протяжении всего жизненного цикла данных.
Рис.. 1 Жизненный цикл корпоративных данных Проблема обогащения данныхКомпания ECC нуждается во всестороннем обзоре, анализе и четком понимании всех данных, связанных с производством, дилерскими операциями и отгрузкой автомобилей. Ей также необходимо быстро выявлять проблемы с данными, например, данные оперативных датчиков могут включать ложные всплески температуры, вызванные незапланированными остановками оборудования или резкими запусками. Данные, которые не имеют отношения к процессу, когда специалисты по техническому обслуживанию извлекают датчик из емкости с кислотой, например, во время обычных проверок, при анализе не должны приниматься во внимание.Кроме того, ECC сталкивается со следующими проблемами данных, которые необходимо решить, чтобы успешно продвигать производство двигателей через свою цепочку поставок. Эти проблемы с данными включают в себя:•      Получение данных в различных форматах из разных источников: конвейеры обработки данных требуют, чтобы данные доставлялись из разных источников и в различных форматах. Независимо от того, получены ли данные от датчиков, установленных на производственной линии, от систем, поддерживающих производственные операции, или от это данные ERP, управляющей цепочкой поставок, все их нужно объединить для дальнейшего анализа.•      Фильтрация избыточных или нерелевантных данных: удаление повторяющихся или недопустимых данных и обеспечение точности оставшихся является ключевым шагом в подготовке данных для дальнейшего использования в расширенной предиктивной аналитике.•      Способность выявлять неэффективные процессы: ECC нужно видеть, какие процессы обработки данных занимают больше всего времени и потребляют больше ресурсов. Это помогает сфокусироваться на неэффективных частях конвейера для ускорения всего процесса.•      Возможность контролировать все процессы из единой панели: компании ECC нужна централизованная система, которая позволяет отслеживать все текущие процессы данных, а также предусматривает возможность расширения своей текущей инфраструктуры при сохранении прозрачности.Качественные наборы данных являются основой любой инициативы в области расширенной аналитики. Для этого необходимо использовать структуру инженерии данных, которая позволит построить все конвейеры, необходимые для перемещения, манипулирования и управления данными различных частей транспортного средства в жизненном цикле данных. Построение конвейера с использованием Cloudera Data EngineeringСобранные с фабрики IoT потоки должны быть очищены и подготовлены к дальнейшему использованию. Заводской идентификатор, идентификатор машины, отметка времени, номер детали и серийный номер можно получать с помощью QR-кода, нанесенного на электродвигатель. Когда двигатель устанавливается в подключенное транспортное средство, собираются такие данные, как тип модели, VIN и базовая стоимость транспортного средства.После продажи автомобиля информация о продаже, такая как имя\фамилия покупателя, контактная информация, окончательная цена продажи и местонахождение покупателя, записывается отдельно. Эти данные будут иметь решающее значение для связи с клиентом для любых потенциальных отзывов или целевого профилактического обслуживания. Также сохраняются данные геолокации, которые помогут сопоставить местоположения клиентов по широте и долготе, чтобы лучше понять, где находятся эти двигатели после продажи в транспортном средстве.ECC будет использовать Cloudera Data Engineering (CDE) для решения вышеуказанных проблем с данными (см. Рис. 2). Затем CDE предоставит данные в хранилище данных Cloudera Data Warehouse (CDW), где они будут доступны для расширенной аналитики и отчетов бизнес-аналитики. Шаги CDE описаны ниже.
Рис. 2 Конвейер обогащения данных ECC ШАГ 1. Фильтрация и разделение данныхПервым шагом в использовании CDE является создание задания PySpark, которое импортирует «сырые» данные из различных источников. Это дает возможность отфильтровать любые нерелевантные данные, например, такие как клиентов младше 16 лет, поскольку обычно это минимальный возраст для получения водительских прав. Повторяющиеся и другие нерелевантные данные также могут быть отфильтрованы или отделены.Шаг 2: Комбинирование данныхЧтобы объединить все данные, CDE сопоставляет общие ссылки. Во-первых, данные о продажах автомобилей будут привязаны к клиенту, который приобрел автомобиль,. Это позволяет получить метаданные клиента, такие как его контактная информация, возраст, зарплата и т. д. Затем данные геолокации будут использоваться для получения более точной информации о местоположении клиента. Позднее эти помогут определить местонахождения двигателей. Данные об установке деталей будут использоваться для определения серийных номеров каждого двигателя, которым был оснащен автомобиль клиента. Наконец, заводские данные будут согласованы в соответствии с серийным номером двигателя, который будет определять завод-производитель, машину и время создания каждого конкретного двигателя.Шаг 3: Отправка данных в Cloudera Data WarehouseКак только все данные будут собраны в расширенную таблицу, простая команда Apache Spark запишет данные в новую таблицу в хранилище данных Cloudera. Это сделает данные доступными для любых специалистов по данным, которые могут получить к ним доступ для проведения дополнительного анализа.Шаг 4: Создание информационных панелей и отчетов для визуализации данныхТеперь, когда все данные собраны в одном месте, можно создавать отчеты, которые позволят сотрудникам принимать более обоснованные решения и откроют новые возможности. Например, можно создавать тепловые карты для отслеживания местоположения двигателя и сопоставления любых проблем, таких как отказ из-за сильного холода или жары, с потенциальным географическим местоположением. Эти данные также можно использовать для точного отслеживания клиентов, которых может коснуться проблема на конкретной фабрике в течение определенного периода времени, что упрощает поиск клиентов, которым может потребоваться отзыв или профилактическое обслуживание автомобиля.Заключение Cloudera Data Engineeringпозволяет компании ECC построить конвейер, который может соотносить данные о производстве и деталях, типе использования клиентами, условиях окружающей среды, информацию о продажах и многое другое, чтобы повысить удовлетворенность клиентов и надежность транспортных средств. Компания ECC достигла своих целей и решила свои проблемы, отслеживая данные, связанные с производством двигателей, и получая выгоду следующими способами:• Она ускорила окупаемость за счет организации и автоматизации конвейеров данных для безопасной и прозрачной доставки тщательно отобранных, качественных наборов данных из различных источников.• ECC может идентифицировать соответствующие данные и отфильтровать любые избыточные и повторяющиеся данные.• Для мониторинга конвейера данных используется единая панель, при этом ECC в состоянии получать уведомления о проблемах на ранней стадии с помощью визуального устранения неполадок. Это позволяет быстро решать проблемы до того, как они повлияют на бизнес.В следующем блоге будет подробно рассказано о создании отчетов и будет показано, как инженеры ECC используют в CDW специальные запросы к этим тщательно подобранным данным, а также объединяют данные с другими соответствующими источниками внутри корпоративного хранилища. CDW упрощает объединение всех данных и предоставляет встроенный инструмент их визуализации для перехода от результатов запроса к информационным панелям. Следите за новостями!Дополнительные ресурсы по аналитике данныхВы можете увидеть все это в действии - нажмите на соответствующие ссылки ниже, чтобы узнать больше об обогащении данных:• Видео. Если вы хотите увидеть и услышать, как это работает, посмотрите видео по ссылке.• Учебники. Если вы хотите делать это в удобном для вас темпе, просмотрите подробное руководство со снимками экрана и построчными инструкциями по настройке и выполнению.• Встречи с экспертами. Если вы хотите поговорить напрямую с экспертами из Cloudera, присоединитесь к виртуальной встрече, чтобы увидеть презентацию в прямом эфире. В конце будет время для прямых вопросов и ответов.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_oblachnye_vychislenija (Облачные вычисления), #_big_data, #_hranenie_dannyh (Хранение данных), #_data_engineering, #_cloudera, #_spark, #_data_engineering, #_cloud, #_blog_kompanii_cloudera (
Блог компании Cloudera
)
, #_oblachnye_vychislenija (
Облачные вычисления
)
, #_big_data, #_hranenie_dannyh (
Хранение данных
)
, #_data_engineering
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 08:40
Часовой пояс: UTC + 5