[Big Data, Data Engineering] Курс «Промышленный ML на больших данных» — что это, для кого и каких навыков требует?

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 7 лет 11 месяцев
Сообщений: 27286

news_bot ^® написал(а)
12-Окт-2020 17:32

Цитировать

Привет Хабр! Приглашаем на бесплатный Demo-урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений». А также в этой статье решили рассказать, как складывается ситуация на рынке специалистов Data Science и конкретно в Big Data и что вас ждет на курсе по промышленному машинному обучению.

В крупных компаниях Data science в терминах fit-predict отходит в прошлоеПервое, что стоит отметить, что джуниоров сейчас избыток, а среди компаний выделяется тренд на то, чтобы искать Middle/ Senior специалиста, давать ему какое-то время на изучение своей инфраструктуры и сразу поручать ему боевые задачи.При этом пока еще значительная часть начинающих специалистов считает, что Дата сайнтисту достаточно готовой реализации модели — обучить ее на каких-то данных и отдать ее Дата инженеру, ну а там дальше как-нибудь разберутся. Но сейчас все движется к тому, что сами процессы обучения и валидации настолько отстроены и понятны, что даже неспециалист может сделать fit-predict. Получается, что люди, которые умеют заниматься лишь этим, в отстроенных конвейерах не очень нужны.Кроме того, существует проблема подготовки специалистов, которые обладали бы знаниями в инженерной области хотя бы на уровне bird view. В классических курсах немного информации по этой части, в том числе и потому, что тяжело сходу развернуть необходимую инфраструктуру, а задачки на Kaggle этого не требуют. Когда же вы приходите в большую компанию, вас встречает кластер на десятки петабайт, где надо писать распределенные алгоритмы на фреймворках, которые отличаются от стандартного набора Дата сайнтиста. С одной стороны многих это пугает, а с другой — те, кто разбирается в этом хотя бы на базовом уровне, получают преимущество при найме. Альтернативная специальность для Дата сайнтистов и Software инженеровКурс «Промышленный ML на больших данных» предлагает симбиоз навыков Дата сайнтиста и Дата инженера. Как правило, такие специалисты требуются в крупные компании с масштабным цифровым продуктом, где нужно работать с потоковыми данными.Соответственно, освоить этот профиль могут как специалисты из области машинного обучения, так и те, кто обладают бэкграундом в software инжиниринге. Причем вторым будет несколько проще, т.к. базовый ML изучать проще, чем полный стек инженерных технологий.Навыки, необходимые для работы с Big Data и распределенными даннымиЕсли кратко, то вам понадобится знать особенности обработки распределенных данных, освоить фреймворк Spark и научиться всем составляющим продакшена.Мы все это (и немного больше) упаковали в онлайн-курс «Промышленный ML на больших данных». Программа рассчитана на 5 месяцев и состоит из 9 модулей:

Модуль 1 посвящен начальным знаниям, которые необходимы для освоения дальнейшей программы. Быстрое повторение ML: какие бывают модели, метрики и виды обучения, как мы учим модели, все меряем, валидируем и делаем из полученного выводы. Сюда же мы включили занятие по Scala. Хотя с большими данными с помощью фреймворка Spark можно общаться и на Python, мы все же предлагаем познакомиться и со Scala, чтобы вы могли контактировать со Spark через его нативное API. В завершение модуля вас ждет домашняя работа на Scala.
В модуле 2 вы познакомитесь с техническими основами распределенной обработки данных. Узнаете про хранилище, как развивались параллельные алгоритмы, какие есть менеджеры ресурсов в таких распределенных системах. Начнете работать со Spark и выполните на нем домашнее задание.
В модуле 3 начинаем погружаться в распределенный ML. Показываем, как учатся модельки в распределенной парадигме на Spark, как подбирать гиперпараметры. Т.е. мы переводим релевантный для Дата сайнтиста опыт локальных вычислений на распределенную парадигму.
Модуль 4 посвящен потоковой обработке. В первую очередь, с этим полезно познакомиться тем, кто занимался соревновательным анализом данных или работал в ограниченных ресурсах. Эти навыки больше относятся к работе в больших компаниях, где есть какой-то непрерывный поток входящих данных, которые надо обрабатывать, складывать, хранить, применять к ним на ходу ML.
Задача модуля 5 — научить вас формировать долгосрочные и краткосрочные цели для ML-проекта. Вы будете понимать, как достигать этих целей и оценивать результаты. Пара занятий выделена специально под то, как проводить А/B тестирование.
Модуль 6 отвечает на вопросы, как и зачем обучать модели. Вы узнаете, как раскатывать модели в своей инфраструктуре: оборачивать, версионировать, воспроизводить, сервить и т.д. Все это для больших данных и распределенной парадигмы.
Модуль 7 отводится под Python. Вы освоите различные практики: как писать на нем в продакшн и как это все оборачивать, как вставлять модель на сервинг, делать для нее API, запаковывать в контейнеры и раскатывать на примере облачных систем вроде Amazon.
Модуль 8 мы выделили под продвинутые темы. Здесь разберем, как запускать в продакшн нейросети, обучение с подкреплением, а закончим модуль градиентным бустингом, где вы научитесь запускать его распределенно на кластере.
Модуль 9 посвящен проектной работе. Тут вам доступны два варианта действий:

Можно взять свой рабочий кейс, над которым вы сейчас трудитесь. Тогда вы будете выполнять поставленную задачу end to end: начиная с данных, которые потоком приходят или в виде датасета отгружаются, и заканчивая результатом, которые дают ваши модели в виде сервиса, выгрузки и т.д.
Можно сделать учебный проект: рекомендательную систему на базе данных OTUS.

Специальность, которую дает эта программа, не только максимально прикладная, но и с каждым годом будет становиться все перспективнее. Это связано и с тем, что все больше цифровых продуктов делают акцент на обработку данных и все чаще от специалистов требуется не только обучить модель, но и правильно подготовить ее в продакшн.Если область промышленного ML вам интересна, сделать первые шаги в этом направлении вы сможете уже 19 октября на демо-уроке «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций», который проведет Дмитрий Бугайченко — управляющий директор в Сбербанке. Так как занятие рассчитано на специалистов с опытом в работе с данными, для регистрации понадобится пройти вступительное тестирование.Сам курс «Промышленный ML на больших данных» стартует 30 октября. Познакомиться с преподавательским составом и программой можно здесь. До встречи на занятиях!
===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_big_data, #_data_engineering, #_promyshlennyj_machine_learning (Промышленный Machine learning), #_bigdata, #_data_engineering, #_spark, #_ml, #_blog_kompanii_otus._onlajnobrazovanie (
Блог компании OTUS. Онлайн-образование
), #_big_data, #_data_engineering

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 14-Янв 14:15
Часовой пояс: UTC + 5