[Python, Big Data, Карьера в IT-индустрии, Data Engineering] Аналитик на прокачку

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
25-Июн-2021 16:34

Ни для кого не секрет, что область Data Science сегодня горяча, работы полно, рук не хватает, а 300 кк/сек можно начать зарабатывать даже раньше, чем конкуренты пройдут курсы по саморазвитию и созданию своего бизнеса от обладателей селфи со спорткарами. Мы в Х5 Group тоже активно помогаем молодым специалистам стать зрелыми мастерами, и можем заверить, что, пусть даже 300 кк/сек это утопия, но 300 к/мес – это вполне себе реальность.
Типовой кейс выглядит так: к нам приходит молодой стажер, получает ментора из числа старших сотрудников, проходит обучающие курсы в нашей Цифровой Академии Х5, наращивает компетенции, и в 3-4 месяца становится младшим аналитиком, а на самом деле Менеджером по Анализу Больших Данных, так эта позиция называется в штатном расписании. А кое-кто и сразу Старшим Менеджером, если затащил, заделиверил и продемонстрировал.Школа аналитиков у нас проходит второй раз, первый запуск прошел для внутренних сотрудников Х5, второй стартовал в октябре 2020 онлайн для всех желающих и прошедших вступительные испытания. Выпуск состоялся 17 июня, стажировки и соглашения о найме, все присутствовало.Расскажем немного о содержании Школы. Она базируется на двух мощных курсах, составляющих ее костяк: Программирование на Python и Машинное Обучение. Первый представляет собой 14 лекций, начиная от основ, нативных структур данных и базового синтаксиса через итераторы, замыкания и исключения к модулям, управлению атрибутами и библиотекам Data Science. Приятным бонусом для студентов пилотного запуска оказались занятия по асинхронному программированию от Сергея Кабанова, которые изначально даже не планировались. Второй курс – классическое машинное обучение: регрессия и классификация, бустинги и библиотеки для них, обучение без учителя и временные ряды, всего 14 лекций и 14 семинаров, домашки, Kaggle in-class. Вокруг двух базовых курсов встроены модули по математике, статистике и АВ тестам, SQL и базам данных, Bigdata и Devops. Все модули примерно одного объема – по 20-28 часов занятий в классе плюс домашки. В сумме выпускник Школы – это практически готовый аналитик, владеющий инструментарием ежедневной работы, стеком технологий и знающий принципы работы систем хранения и обработки больших данных. Ему нужно лишь поработать 3-4 месяца стажером, чтобы понять как оно в реальности, или же он сходу может начинать работать младшим аналитиком, если имеет некоторый рабочий опыт, полученный до поступления в Школу, или параллельно учебе в ней.Понятно, что контент Школы доступен стажерам, и они восполняют нехватку знаний не только напрямую на рабочем месте, но и из методических материалов, разработанных в рамках Школы. Рассмотрим тот спектр навыков и знаний, которым в нашем понимании обладает младший аналитик, или, более звучно, Менеджер по Анализу Больших Данных.Он отображен на этой прекрасной ретро-картинке прямиком из Excel и говорит, что младший аналитик должен уметь кодить на Питоне (внезапно), писать базовые запросы на SQL (:you-don’t-say:), знать базовую статистику на уровне p-value, уметь трансформировать цифры в инсайты, уметь в фитпредикт и знать базовый стек компьютерных технологий: Git, Linux, bash, можно Docker, Kubernetes и далее и далее, тут в какой-то момент произойдет фазовый переход в мидла, и далее до бесконечности. За подробностями сюда.
 По SQL мы спрашиваем на уровне джойнов, групбаев и оконных функций, иногда можем попросить рассказать про индексы, и для чего они предназначены. Еще мы просим решить на Python задачку уровня Leetcode easy, чтобы понять, насколько уверенно кандидат будет справляться с каждодневными задачками, знает ли он про сложность алгоритмов, не забывает ли про краевые случаи, да и вообще пишет ли рабочий код. Мы хотим, чтобы кандидат понимал машинное обучение на уровне базовых алгоритмов обучения с учителем и без оного, мог рассказать про валидацию и инжиниринг признаков, знал основные типы задач и метрики для них. Все в объеме открытого курса от ODS.Статистика лежит в сердце наших пайплайнов по АВ тестированию, которое используем для оценки экономического эффекта от внедрения той или иной инициативы, потому знание этой области обязательно в объеме метода максимального правдоподобия, максимума апостериорной вероятности, методов проверки статистических гипотез, собственно АВ тестирования, и статистических методов оценки процессов.Важный навык проведения аналитических исследований не так просто оценить на собеседовании, тут мы судим скорее по словам соискателя, по его pet-projects, по тому, как он аргументирует свои ответы по другим секциям интервью.Последнее требование, это базовая компьютерная грамотность, куда мы включаем навыки работы с Git, bash, базовое понимание тестирования программ, понимание процессы continuous integration.Нам кажется, что, добрав за время стажировки теоретических знаний по темам Школы аналитиков, и поработав с реальными задачами ad-hoc анализа, продуктовой аналитики, толковый стажер с легкостью может по окончании стажировки претендовать на позицию младшего аналитика, уверенно выполнять задачи и приносить пользу компании, что мы и отражаем в его зарплатной ведомости.
Мы в Х5 проводим два вида стажировки: круглогодичную и летнюю. На первую стараемся набирать выпускников Школы аналитиков данных Х5, зная гарантированное наличие у них интересующих нас знаний и навыков, но берем и студентов вузов, если они могут совмещать учебу и работу по 20-30 часов в неделю.А вот вторая начинается с 1 июля, длится 2 месяца и дарит удивительную возможность поработать 20-40 часов в неделю вместо летних жарких развлечений над продуктами и проектами нашей компании. Приведем некоторые примеры.
Продукт ценообразования — это расчёт регулярных ценников в сети Пятерочки из 17 тыс магазинов с целью достижения заданных бизнес метрик. В продукте используются графовые модели, бустинги, АБ-тесты, модели исследования операций, аппроксимация кривых и многое другое.Есть в Х5 планирование промо акций - оптимизация набора товаров, которые ставятся в промо. При оптимизации учитываются эмбеддинги товаров (привет matrixfactorization model) для исключения товаров заменителей, прогноз продаж и учет сложных механик (купи 2 получи 1 бесплатно) + оптимизация цены промо. Можно с уверенностью сказать, что продукт собирает в себя все актуальные наработки Биг Дата в направлении коммерции. Особое внимание мы уделяем метрикам продукта и качественной документации.Есть и направление работы с внешними организациями, которые хотят принимать решения с использованием данных Х5. Например, поставщики продуктов могут получать сложные отчеты и, например, корректировать линейку своих продуктов или корректировать логистику и производство. Рекламные агентства — проводить кампании, целясь в желаемый сегмент клиентов Х5, а также оценивать их результаты. Финансовым организациям интересно улучшить собственные модели скоринга с помощью наших моделей или найти похожих по поведению клиентов.Как правило, в каждой из команд свои требования к аналитикам, но главная цель всех продуктов, это делать законченные решения в интересах бизнес-единиц, поэтому у нас есть и SQL-разработка, и статистика, и машинное обучение, и различные инженерные задачи.Обычно стажеры занимаются АВ тестированием, продуктовой аналитикой, написанием вспомогательного кода, работают с данными, строят витрины и дашборды.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_python, #_big_data, #_karera_v_itindustrii (Карьера в IT-индустрии), #_data_engineering, #_ritejl (ритейл), #_bigdata, #_stazhirovka (стажировка), #_datasajns (датасайнс), #_python, #_mashinnoe_obuchenie (машинное обучение), #_mlcourse_open, #_ml, #_a/b_testirovanie (a/b тестирование), #_sql, #_blog_kompanii_x5_retail_group (
Блог компании X5 Retail Group
)
, #_python, #_big_data, #_karera_v_itindustrii (
Карьера в IT-индустрии
)
, #_data_engineering
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 02:43
Часовой пояс: UTC + 5