[Конференции, Data Engineering] Опыт разработки и внедрения систем данных в data-driven компаниях
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Привет, Хабр! Меня зовут Ксюша Блажевич, я руководитель направления data science и product-owner в Леруа Мерлен. 13 апреля в 19:00 МСК мы совместно с Yandex.Cloud огранизуем митап о платформах данных, на котором обсудим c Авито и Райффайзенбанком методы и инструменты скоринга входных данных, их агрегации и создании единой системы.
Под катом расписание митапа и анонсы докладов: о релизе нового функционала Yandex Object Storage, методах ускорения time to market до 1 дня, применении lightGBM при приемке товара на складах и оптимизации размещения банкоматов с помощью JupyterHub. Программа
Дмитрий Ибрагимов19:00 - 19:20 МСК
Создание Data Platform в Леруа Мерлен
Дмитрий Ибрагимов, SRE Леруа Мерлен
Расскажет об архитектуре Data Platform Леруа Мерлен, а также сделает обзор новинок и инструментов для работы с данными и их обработки. Детально обсудим:
- способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark);
- потоковую обработку CDC на платформе Apache Flink;
- снижение порога вхождения для работы с данными с помощью Apache Superset.
Всеволод Грабельников19:20 - 19:40 МСК
Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД
Всеволод Грабельников, архитектор Yandex.Cloud
Поделится тем, как команда подошла к решению задачи поддержки хранения и обработки данных в СУБД ClickHouse в S3, а также впервые расскажут о новом функционале по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage).
Илья Салманов19:40 - 20:00 МСК
Витрины данных в Авито и их применение в бизнес-задачах
Илья Салманов, middle engineer юнита DWH
Раскроет тему витрин данных и того, как с их помощью упростить жизнь аналитиков и дата-инженеров, а именно закрыть потребности более 100 дата-специалистов командой из 14 инженеров. Все о том, как Авито:
- стандартизировала процесс создания витрин;
- поддерживает качество кода и данных в витрине;
- строит дерево зависимостей и пересчитывает витрины (парсинг кода, потоки, SLA витрины);
- ускоряет time to market для витрин (до 1 дня).
Михаил Сеткин20:00 - 20:20 МСК
От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели на примере реальных бизнес-кейсов
Михаил Сеткин, руководитель направления по развитию прикладной платформы Data Lake Райффайзенбанк
Райффайзенбанк расскажет о своей платформе Data Lake и поделится, как:
- произвести моделирование тендеров для закупок;
- обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map;
- создать чатбот, научиться распознавать паспорта, 2-НДФЛ и отчеты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU;
- выработать два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).
Ксения Блажевич20:20 - 20:40 МСК
Светофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу
Ксения Блажевич, руководитель продукта Леруа Мерлен
Я поделюсь опытом того, как мы обучили модель выявлять проблемные поставки от поставщиков на складах. В деталях расскажу о сложностях, с которыми столкнулась наша команда во время разработки и внедрения ML-продукта в компании с большим количеством оффлайн процессов.
На примере продукта «Светофор» покажу, как в дата-инфраструктуру компании вписался ставший "классическим" стек для продуктивизации ML-решений - Kubernetes, Airflow, DVC и собственный model registry на базе S3 и Postgres.Присоединяйся к нам 13 апреля - регистрируйся на мероприятие по ссылке
===========
Источник:
habr.com
===========
Похожие новости:
- [Конференции, Здоровье, IT-компании] Microsoft в этом году проведет все свои конференции в онлайне
- [Python, Программирование, Data Mining, Big Data, R] R vs Python в продуктивном контуре
- [Параллельное программирование, Конференции, Распределённые системы] Распределённая конференция о распределённых системах: анонс Hydra 2021
- [Программирование, Data Mining, Алгоритмы, R] R, Монте-Карло и enterprise задачи, часть 2
- [Хакатоны, Конференции] Digital-мероприятия в Москве c 5 по 11 апреля
- [Python, Программирование, Учебный процесс в IT, Data Engineering] Из филолога в Python-разработчики: как переучиться и чего ждать от новой профессии
- [Python, Визуализация данных] Открыта программа раннего доступа к JetBrains DataSpell — нашей новой IDE для Data Science (перевод)
- [Учебный процесс в IT, Конференции, DevOps] Почему онлайн-обучения мало, чтобы стать сеньором?
- [Высокая производительность, Конференции, Лайфхаки для гиков, Мозг, Здоровье] Просветительская деятельность как профилактика синдрома самозванца
- [Usability, Управление разработкой, Управление продуктом, Конференции] Demo Day в Райффайзенбанке. Покажем, как устроены продукты изнутри
Теги для поиска: #_konferentsii (Конференции), #_data_engineering, #_mitapy (митапы), #_data_science, #_leroy_merlin, #_blog_kompanii_lerua_merlen (
Блог компании Леруа Мерлен
), #_konferentsii (
Конференции
), #_data_engineering
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:03
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Привет, Хабр! Меня зовут Ксюша Блажевич, я руководитель направления data science и product-owner в Леруа Мерлен. 13 апреля в 19:00 МСК мы совместно с Yandex.Cloud огранизуем митап о платформах данных, на котором обсудим c Авито и Райффайзенбанком методы и инструменты скоринга входных данных, их агрегации и создании единой системы. Под катом расписание митапа и анонсы докладов: о релизе нового функционала Yandex Object Storage, методах ускорения time to market до 1 дня, применении lightGBM при приемке товара на складах и оптимизации размещения банкоматов с помощью JupyterHub. Программа Дмитрий Ибрагимов19:00 - 19:20 МСК Создание Data Platform в Леруа Мерлен Дмитрий Ибрагимов, SRE Леруа Мерлен Расскажет об архитектуре Data Platform Леруа Мерлен, а также сделает обзор новинок и инструментов для работы с данными и их обработки. Детально обсудим:
Всеволод Грабельников19:20 - 19:40 МСК Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД Всеволод Грабельников, архитектор Yandex.Cloud Поделится тем, как команда подошла к решению задачи поддержки хранения и обработки данных в СУБД ClickHouse в S3, а также впервые расскажут о новом функционале по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage). Илья Салманов19:40 - 20:00 МСК Витрины данных в Авито и их применение в бизнес-задачах Илья Салманов, middle engineer юнита DWH Раскроет тему витрин данных и того, как с их помощью упростить жизнь аналитиков и дата-инженеров, а именно закрыть потребности более 100 дата-специалистов командой из 14 инженеров. Все о том, как Авито:
Михаил Сеткин20:00 - 20:20 МСК От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели на примере реальных бизнес-кейсов Михаил Сеткин, руководитель направления по развитию прикладной платформы Data Lake Райффайзенбанк Райффайзенбанк расскажет о своей платформе Data Lake и поделится, как:
Ксения Блажевич20:20 - 20:40 МСК Светофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу Ксения Блажевич, руководитель продукта Леруа Мерлен Я поделюсь опытом того, как мы обучили модель выявлять проблемные поставки от поставщиков на складах. В деталях расскажу о сложностях, с которыми столкнулась наша команда во время разработки и внедрения ML-продукта в компании с большим количеством оффлайн процессов. На примере продукта «Светофор» покажу, как в дата-инфраструктуру компании вписался ставший "классическим" стек для продуктивизации ML-решений - Kubernetes, Airflow, DVC и собственный model registry на базе S3 и Postgres.Присоединяйся к нам 13 апреля - регистрируйся на мероприятие по ссылке =========== Источник: habr.com =========== Похожие новости:
Блог компании Леруа Мерлен ), #_konferentsii ( Конференции ), #_data_engineering |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:03
Часовой пояс: UTC + 5