[Программирование, Big Data, Конференции] Мозги на переплавку: обзор конференции Data Fusion

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
28-Апр-2021 13:32

Цитировать

Ежегодная конференция ВТБ по Data Fusion, оправдывая своё название, собрала самых разных людей с очень интересными идеями. Общепринятое значение термина Data Fusion – объединение нескольких источников данных и их обработка, в результате которой получается нечто более полезное, чем могли бы дать эти источники по отдельности. В этой статье – о том, что запомнилось больше всего и привлекло наибольшее внимание с точки зрения Data Science. В вводной части Светлана Сикуляр, Gartner VP Analyst, рассказала о трендах в отрасли:

data-сайентистов дополняют инженеры, внедряя готовые модели и тестируя MVP (стала актуальной даже сама роль Model Validator из банковского бизнеса);
федеративное обучение оказалось широко востребовано, в частности, в фарме (например, при создании вакцины Moderna).

В числе прочего Светлана рассказала о тренде под названием Transfer learning.Хотя ориентированная на бизнес часть конференции и не была главной, несколько очень важных мыслей оттуда точно нужно вынести. Так, мало просто хранить данные: их надо правильно обрабатывать, добывая смысл, который даст дополнительную ценность.Этой идеей пронизана вся концепция Data Fusion, что отлично видно на примерах, затронутых на круглом столе Data Fusion и работа с клиентами. От «скрещивания» данных мобильных операторов с гео-данными, как рассказали руководитель продуктов больших данных в госсекторе Константин Загуменов и TechLead проектов по исследованию больших данных Вадим Уваров из Tele2, до техник противодействия мошенникам у Почты России, которыми поделился Алексей Деревянкин.Теперь к отдельным докладам, на которые хочется обратить особое внимание.Ансамбли нейросетейНейросети тренируются так, чтобы показывать идеальный результат на обучающей выборке. Вследствие этого они и потом демонстрируют некоторую «самоуверенность». Другими словами, нейросети выдают чёткий результат даже тогда, когда ответ не так уж однозначен.Чтобы решить эту проблему, применяется метод ансамблирования нейросетей: вместо результата одной единственной сетки берётся среднее по ансамблю (например, математическое ожидание по ансамблю независимо обученных сетей). Но как понять, с какими весами брать отдельные сетки в ансамбле? Прямое применение теоремы Байеса приводит к слишком сложным вычислениям, поэтому используются разнообразные упрощённые методы. В своём докладе Дмитрий Ветров (ВШЭ) поделился результатами исследований на эту тему и сравнил эффективность разных методов с точки зрения расходования вычислительных ресурсов.

Тут Дмитрий рассказывает, что происходит с памятью при компоновке ансамблей из сетей разного размера.Пожалуй, самый главный вывод такой: как только у вас есть ресурсы, чтобы собрать даже небольшой ансамбль (вместо одной большой нейросети) – делайте это. Точность вырастет, а «самоуверенность» снизится. Более того, по результатам работы этого небольшого ансамбля можно будет вычислить, насколько мелкое разбиение нейросети вам стоит делать.Графовая аналитикаАндрей Райгородский (МФТИ) рассказал про современные применения теории графов к анализу данных. «Чистые» математики давно знают и любят теорию графов (максимально упрощая – теорию о том, как точки можно соединять линиями. Никогда не говорите при них такое!). А в последние годы, к радости теоретиков, она получила самое непосредственное применение.В докладе речь шла про Интернет как граф: сайты – это точки (вершины), а ссылки с одного сайта на другой – это линии (рёбра графа).Изучая граф, можно сделать множество наблюдений. Например, что общая структура Интернета устойчива к случайному воздействию на разнообразные сайты, но уязвима при атаках на «хабы» – крупные сайты, связанные с множеством других.

Самое доступное из возможных объяснение графа Бакли-Остгуса.Ещё один интереснейший факт: независимо от того, как разрастается Интернет – а делает он это с приличной скоростью – доля «хабов», имеющих d ссылок, обратно пропорциональна этому числу d в небольшой положительной степени.Очень доступно Андрей Райгородский рассказал о модели Buckley-Osthus, которую можно использовать для исследования таких графов. Её суть сводится к тому, что некоторый новый сайт будет, скорее всего, связан с одним из наиболее популярных имеющихся сайтов. Слова «скорее всего» означают в данном случае, что вероятность будет пропорциональна количеству входящих ссылок. ML и временные рядыЕвгений Бурнаев рассказал про перенос классических методов ML на прогнозирование временных рядов. Такая задача возникает, например, при анализе действий пользователей. Обычный подход заключается в том, что проводится RFM-скоринг (высчитывается средняя частота действий, коммерческий результат и время, прошедшее с последнего визита). При этом, например, регулярно покупающий клиент может иметь такой же скор, что и тот, все визиты которого скучены в начале и конце периода усреднения. Другими словами, информация о распределении по времени теряется.

Немного о персистентных гомологиях. Если перейти к временному ряду, математическая задача сведется к анализу траекторий на некотором многообразии (точки траектории при этом – это наборы параметров в различные моменты времени). Оказывается, что такой «топологический» подход позволяет автоматически выявлять характеристики временных рядов, не задумываясь о самой природе исходных данных.Fake News и постправдаВ 2015 году термину «fake news» было посвящено около 100 научных публикаций. В 2020 году – более 24000. Причина здесь, конечно, не только в злободневности этой темы, но и в тех возможностях, которые в связи с этим открывают методы обработки естественного языка (NLP).Константин Воронцов (МФТИ) рассказали про fake news с точки зрения анализа данных, и про тренды, которые пока не столь популярны.

Как работают кликбейты с точки зрения ИИ.Помимо анализа текста как такового (сюда входит факт-чекинг и выявление обмана), есть большой класс задач сравнения нескольких текстов и выявления взаимосвязей между ними. Это и кластерицация разногласий, определение степени поляризации мнений по тому или иному вопросу, классификация «объект/субъект». Интересный пример – взаимосвязь заголовка новости и её текста: если связь слабая, то это кликбейт.Structured Domain KnowledgeТеория графов вновь встретилась в рассказе Руслана Салахутдинова: речь зашла о комбинации поиска по неструктурированным текстовым данным с поиском по базе знаний (которая, очевидно, представима в виде графа). В докладе разобран очень интересный пример решения задачи сложного условного поиска, когда запрос выглядит как «Найти X такой, что Y(X)».

В отличие от остальных спикеров, Руслан Салахутдинов выступал на английском.Data Fusion Contest Несмотря на пандемическое время, получилось провести масштабный контест с более чем тысячей участников, призами, интервью и награждением. Data Fusion Contest содержал в себе 2 задачи: анализ нескольких миллионов сгенерированных чеков с поиском паттернов в этом датасете (GOODSIFICATION) и задачу по принятию решения на основе ограниченных данных (BRANDEFINE).

Победители объясняют секрет успеха.Наверное, самое замечательное здесь – это возможность в деталях изучить решения: призёры и победители подробно рассказали о том, как именно они справились с задачами. Премия Data Fusion Успех мероприятия показал, что прогрессивным дата-сайентистам сейчас одинаково интересна как возможность поработать с реальными кейсами на переднем крае прикладной науки, так и обмен опытом с лучшими в своём деле. По этой причине с этого года была официально учреждена ежегодная профессиональная премия Data Fusion Awards. ИтогиХотелось рассказать обо всём сразу, но (естественно) не получилось. Был целый блок, связанный с этическими и юридическими тонкостями и с тем, как с ними обходиться (с помощью препроцессинга и других методов). Data Science уже вышла на тот уровень, когда обычными конференциями «обо всём сразу» ограничиваться нельзя: есть очевидный спрос на более нишевые, «отраслевые» мероприятия. И это как раз тот случай. Все заинтересованные могут посмотреть все выступления и доклады мероприятия собственными глазами: https://data-fusion.ru/live/. На прошедшем мероприятии мы воочию засвидетельствовали, что шаги, которые наука раньше проходила за десятилетия, сегодня занимают годы, а то и месяцы. Что ж, это как минимум радует. В комментариях расскажите, довелось ли вам побывать на Data Fusion и хотели бы сделать это в будущем. Будем рады обратной связи от хабровчан.
===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_programmirovanie (Программирование), #_big_data, #_konferentsii (Конференции), #_data_fusion, #_data_science, #_premija (премия), #_konferentsija (конференция), #_ii (ии), #_blog_kompanii_vtb (
Блог компании ВТБ
), #_programmirovanie (
Программирование
), #_big_data, #_konferentsii (
Конференции
)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 19-Июн 11:15
Часовой пояс: UTC + 5