[Программирование, Big Data, Конференции] Мозги на переплавку: обзор конференции Data Fusion

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
28-Апр-2021 13:32


Ежегодная конференция ВТБ по Data Fusion, оправдывая своё название, собрала самых разных людей с очень интересными идеями. Общепринятое значение термина Data Fusion – объединение нескольких источников данных и их обработка, в результате которой получается нечто более полезное, чем могли бы дать эти источники по отдельности. В этой статье – о том, что запомнилось больше всего и привлекло наибольшее внимание с точки зрения Data Science. В вводной части Светлана Сикуляр, Gartner VP Analyst, рассказала о трендах в отрасли:
  • data-сайентистов дополняют инженеры, внедряя готовые модели и тестируя MVP (стала актуальной даже сама роль Model Validator из банковского бизнеса);
  • федеративное обучение оказалось широко востребовано, в частности, в фарме (например, при создании вакцины Moderna).

В числе прочего Светлана рассказала о тренде под названием Transfer learning.Хотя ориентированная на бизнес часть конференции и не была главной, несколько очень важных мыслей оттуда точно нужно вынести. Так, мало просто хранить данные: их надо правильно обрабатывать, добывая смысл, который даст дополнительную ценность.Этой идеей пронизана вся концепция Data Fusion, что отлично видно на примерах, затронутых на круглом столе Data Fusion и работа с клиентами. От «скрещивания» данных мобильных операторов с гео-данными, как рассказали руководитель   продуктов больших данных в госсекторе Константин Загуменов и TechLead проектов по исследованию больших данных Вадим Уваров из Tele2, до техник противодействия мошенникам у Почты России, которыми поделился Алексей Деревянкин.Теперь к отдельным докладам, на которые хочется обратить особое внимание.Ансамбли нейросетейНейросети тренируются так, чтобы показывать идеальный результат на обучающей выборке. Вследствие этого они и потом демонстрируют некоторую «самоуверенность». Другими словами, нейросети выдают чёткий результат даже тогда, когда ответ не так уж однозначен.Чтобы решить эту проблему, применяется метод ансамблирования нейросетей: вместо результата одной единственной сетки берётся среднее по ансамблю (например, математическое ожидание по ансамблю независимо обученных сетей). Но как понять, с какими весами брать отдельные сетки в ансамбле? Прямое применение теоремы Байеса приводит к слишком сложным вычислениям, поэтому используются разнообразные упрощённые методы. В своём докладе Дмитрий Ветров (ВШЭ) поделился результатами исследований на эту тему и сравнил эффективность разных методов с точки зрения расходования вычислительных ресурсов.
Тут Дмитрий рассказывает, что происходит с памятью при компоновке ансамблей из сетей разного размера.Пожалуй, самый главный вывод такой: как только у вас есть ресурсы, чтобы собрать даже небольшой ансамбль (вместо одной большой нейросети) – делайте это. Точность вырастет, а «самоуверенность» снизится. Более того, по результатам работы этого небольшого ансамбля можно будет вычислить, насколько мелкое разбиение нейросети вам стоит делать.Графовая аналитикаАндрей Райгородский (МФТИ) рассказал про современные применения теории графов к анализу данных. «Чистые» математики давно знают и любят теорию графов (максимально упрощая – теорию о том, как точки можно соединять линиями. Никогда не говорите при них такое!). А в последние годы, к радости теоретиков, она получила самое непосредственное применение.В докладе речь шла про Интернет как граф: сайты – это точки (вершины), а ссылки с одного сайта на другой – это линии (рёбра графа).Изучая граф, можно сделать множество наблюдений. Например, что общая структура Интернета устойчива к случайному воздействию на разнообразные сайты, но уязвима при атаках на «хабы» – крупные сайты, связанные с множеством других.
Самое доступное из возможных объяснение графа Бакли-Остгуса.Ещё один интереснейший факт: независимо от того, как разрастается Интернет – а делает он это с приличной скоростью – доля «хабов», имеющих d ссылок, обратно пропорциональна этому числу d в небольшой положительной степени.Очень доступно Андрей Райгородский рассказал о модели Buckley-Osthus, которую можно использовать для исследования таких графов. Её суть сводится к тому, что некоторый новый сайт будет, скорее всего, связан с одним из наиболее популярных имеющихся сайтов. Слова «скорее всего» означают в данном случае, что вероятность будет пропорциональна количеству входящих ссылок. ML и временные рядыЕвгений Бурнаев рассказал про перенос классических методов ML на прогнозирование временных рядов. Такая задача возникает, например, при анализе действий пользователей. Обычный подход заключается в том, что проводится RFM-скоринг (высчитывается средняя частота действий, коммерческий результат и время, прошедшее с последнего визита). При этом, например, регулярно покупающий клиент может иметь такой же скор, что и тот, все визиты которого скучены в начале и конце периода усреднения. Другими словами, информация о распределении по времени теряется.
Немного о персистентных гомологиях. Если перейти к временному ряду, математическая задача сведется к анализу траекторий на некотором многообразии (точки траектории при этом – это наборы параметров в различные моменты времени). Оказывается, что такой «топологический» подход позволяет автоматически выявлять характеристики временных рядов, не задумываясь о самой природе исходных данных.Fake News и постправдаВ 2015 году термину «fake news» было посвящено около 100 научных публикаций. В 2020 году – более 24000. Причина здесь, конечно, не только в злободневности этой темы, но и в тех возможностях, которые в связи с этим открывают методы обработки естественного языка (NLP).Константин Воронцов (МФТИ) рассказали про fake news с точки зрения анализа данных, и про тренды, которые пока не столь популярны.
Как работают кликбейты с точки зрения ИИ.Помимо анализа текста как такового (сюда входит факт-чекинг и выявление обмана), есть большой класс задач сравнения нескольких текстов и выявления взаимосвязей между ними. Это и кластерицация разногласий, определение степени поляризации мнений по тому или иному вопросу, классификация «объект/субъект». Интересный пример – взаимосвязь заголовка новости и её текста: если связь слабая, то это кликбейт.Structured Domain KnowledgeТеория графов вновь встретилась в рассказе Руслана Салахутдинова: речь зашла о комбинации поиска по неструктурированным текстовым данным с поиском по базе знаний (которая, очевидно, представима в виде графа). В докладе разобран очень интересный пример решения задачи сложного условного поиска, когда запрос выглядит как «Найти X такой, что Y(X)». 
В отличие от остальных спикеров, Руслан Салахутдинов выступал на английском.Data Fusion Contest Несмотря на пандемическое время, получилось провести масштабный контест с более чем тысячей участников, призами, интервью и награждением. Data Fusion Contest содержал в себе 2 задачи: анализ нескольких миллионов сгенерированных чеков с поиском паттернов в этом датасете (GOODSIFICATION) и задачу по принятию решения на основе ограниченных данных (BRANDEFINE).
Победители объясняют секрет успеха.Наверное, самое замечательное здесь – это возможность в деталях изучить решения: призёры и победители подробно рассказали о том, как именно они справились с задачамиПремия Data Fusion Успех мероприятия показал, что прогрессивным дата-сайентистам сейчас одинаково интересна как возможность поработать с реальными кейсами на переднем крае прикладной науки, так и обмен опытом с лучшими в своём деле.  По этой причине с этого года была официально учреждена ежегодная профессиональная премия Data Fusion Awards. ИтогиХотелось рассказать обо всём сразу, но (естественно) не получилось. Был целый блок, связанный с этическими и юридическими тонкостями и с тем, как с ними обходиться (с помощью препроцессинга и других методов). Data Science уже вышла на тот уровень, когда обычными конференциями «обо всём сразу» ограничиваться нельзя: есть очевидный спрос на более нишевые, «отраслевые» мероприятия. И это как раз тот случай. Все заинтересованные могут посмотреть все выступления и доклады мероприятия собственными глазами: https://data-fusion.ru/live/. На прошедшем мероприятии мы воочию засвидетельствовали, что шаги, которые наука раньше проходила за десятилетия, сегодня занимают годы, а то и месяцы. Что ж, это как минимум радует. В комментариях расскажите, довелось ли вам побывать на Data Fusion и хотели бы сделать это в будущем. Будем рады обратной связи от хабровчан.  
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_programmirovanie (Программирование), #_big_data, #_konferentsii (Конференции), #_data_fusion, #_data_science, #_premija (премия), #_konferentsija (конференция), #_ii (ии), #_blog_kompanii_vtb (
Блог компании ВТБ
)
, #_programmirovanie (
Программирование
)
, #_big_data, #_konferentsii (
Конференции
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 06:27
Часовой пояс: UTC + 5