[Машинное обучение, Открытые данные] «Велосипедный набор» или о создании самодельных датасетов для анализа и машинного обучения

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
11-Окт-2020 01:31

Цитировать

Несколько лет назад я ненадолго увлекся машинным обучением и анализом данных, даже написал небольшой цикл о моем погружении в этот удивительный мир, с точки зрения полного новичка.
Как часто бывает при изучении чего-то нового, мне очень хотелось сделать свой «велосипед». К сожалению, в математике и программировании я разбираюсь плохо, поэтому кандидатом на роль «велосипеда» стал собственный датасет.
С того момента прошло уже больше двух лет и вот у меня дошли руки поделится с вами своим небольшим опытом.
В статье мы рассмотрим несколько потенциальных источников для самостоятельного сбора данных (в том числе не очень популярных), а также попробуем найти в этом процессе хоть какую-то пользу.

Оглавление:
Часть I: Введение
Часть II: Источники данных
Часть III: Есть ли от этого польза?
Часть IV: Заключение
Часть I: Введение
Из вступительной части вы наверняка уже догадались, что я не гуру анализа данных и машинного обучения. Пионером в области поиска источников открытых данных меня тоже сложно назвать. Поэтому в данной статье речь пойдет не о хороших практиках, а о том, как утолить "зуд в руках" если вам пришла идея создать свой датасет. Прошу не воспринимать эту статью слишком серьезно.
С момента задумки статью до её реализации много воды утекло. Ситуация с доступом к открытым данным становится все лучше и лучше. На Хабре за это время появились хорошие подборки различных источников (например, зарубежных), но я все же решил внести свои «5 копеек».
Итак, пришла пора сбросить гнет чужих наборов данных и создать свой «лучший в мире» набор данных, чтобы скормить его потом алгоритму или просто построить самый эксклюзивный график на свете.
Часть II: Источники данных
Порталы с открытыми данными можно разделить на несколько категорий.
Специальные порталы с данными для машинного обучения и анализа
На этих порталах как правило данные отформатированы в форматы удобные для машинного анализа. Остается их только скачать и загрузить.
Мне в первую очередь вспоминается Kaggle. На Хабре уже есть хорошая статья про наборы данных на Kaggle и инструменты самостоятельного поиска датасетов для машинного обучения.
Поскольку цель нашей сегодняшней статьи не столько сделать хорошо, сколько сделать самому, мы продолжим движение в сторону менее популярных и удобных ресурсов.
Порталы открытых данных различных гос. органов и общественных организаций
Хотя концептуально «Открытое правительство» в России начало формироваться в начале 2010-х годов, лично мне более-менее адекватные данные обычно удавалось найти примерно за период с 2015 года и позже.
На Хабре уже есть критика порталов с открытыми данными РФ от 2017 года. С тех пор ситуация стала лучше. У некоторых порталов даже появись API для доступа. Однако, все равно остается ощущения, что часто данные собирается по принципу: «Нам тут начальство приказало данные открыть, вот вам кушаете не обляпайтесь».
Рассмотрим основные популярные порталы открытых данных.
Портал открытых данных РФ
Портал оставляет не однозначное впечатление. С одной стороны, у портала есть API для доступа к данным и множество разных датасетов.
С другой стороны на портале, часто можно встретить заброшенные и бесполезные наборы данных, например:

заброшенный набор данных об активных пользователях сети интернет, в котором полезной статистики меньше чем метаданных.
или набор данных, который нам привез сам «почтальон печкин».

С другой стороны есть люди, которые ответственно выполняют свою работу. Например, данные о величине муниципального долга Ровеньского района и данные об Исполнение бюджетов сельских поселений Ровеньского района ведутся вполне добросовестно и регулярно. Если «смелый, ловкий и умелый то...» ~джунгли тебя зовут~ вы вполне можете из этих двух наборов создать один, найти аномальные выбросы, несоответствия или даже корреляции между данными.
Я думаю, результат получится не менее убедительным чем на графике про связь фильмов Николаса Кейджа и падение людей в бассейн.
Портал открытых г. Москвы
У портала открытых данных г. Москвы, тоже есть API для доступа к данным.
Сами данные при этом ведутся более порядочно, чем у федерального ресурса.
На сайте есть как геоданные (объекты с привязкой к координатам), так и просто статистика.
В качестве достаточно простого кейса по созданию своего набора данных можно например, скрестить два набора данных и поискать зависимости между данными вызовов подразделений пожарно-спасательного гарнизона города Москвы по административным округам и данными по количеству выявленных общественными пунктами охраны порядка в городе Москве фактов незаконной сдачи жилья в аренду (поднаем) по административным округам Если найдете что-нибудь интересное отпишитесь в комментарии.
Другие стандартизованные источники
У «Северной столицы», тоже есть свой портал открытых данных.
И у других городов РФ тоже, но я не буду останавливаться на них подробней
Открыто данные в табличном виде можно найти у различных министерств и ведомств, например у Минтруда.
Также будет вполне интересно изучить открытые данные Республики Беларусь
Сайты с информацией
Помимо ресурсов, в том или ином виде адаптированных под концепцию «Открытого правительства» существует множество других сайтов с полезной статистической информацией, например:

Центробанк РФ – множество различных экономических показателей, для анализа.
Народный мониторинг – данные для любителей временных трендов. Если зарегистрироваться на портале, то можно выбрать любую любительскую точку мониторинга погоды и скачать данные о погоде в формате данные .csv. (без регистрации кнопка не доступна).
Сайты поставщики данных спортивной статистики, например, у Sportradar есть пробный доступ к API. При желании можно найти кучу информации по разным видам спорта и национальным чемпионатам. От количества побед команды до количества мячей, которые футболист забил головой.
Национальная электронная библиотека предоставляет данные по издательствам и научным статьям, сводки правда без привязки к датам, но помимо готовых сводок можно с помощью поиска самостоятельно собрать те или иные данные по публикационной активности.

Часть III: Есть ли от этого польза?
На самом деле в силу малого опыта в анализе данных ответить на вопрос заголовка убедительно мне будет затруднительно. Может быть матерые специалисты скажут, что в создании своего набора данных смысла нет и это пустая трата времени.
Но вот, что полезного я вынес для себя в итоге:

С точки зрения понимания принципов работы с популярными библиотеками данных на Python (или другом языке) собрать хоть один датасет своими руками будет познавательно. Особенно это полезно, когда в процессе возникают какие-нибудь ошибки в формате или наполнении файла.
Пока ищешь или собираешь данные начинаешь постепенно планировать эксперимент, причем не один.
Как правило неоткуда взять готовое решение или интерпретацию результатов. Полезно попытаться самому понять, что в итоге получилось даже если результаты вышли безумными и не имеют никакого практического применения. Особенно полезно понять, что сами по себе библиотеки и программы для машинного обучения чудес не делают и если данные плохие и сам эксперимент или схема анализа не продумана, то и результат будет так себе.
В процессе сбора данных иногда можно найти явные ошибки, неточности и несоответствия. В упомянутом выше наборе про обращения граждан в мэрию Москвы, точно есть аномальные данные, которые выглядят как «копипаст», также были ошибки с указанием итоговых значений вместо фактических. Понимание, того, что все мы люди и можем ошибаться, помогает лучше понять проблемы и необходимость обработки реальных данных для машинного обучения.
Полученные результаты можно разместить в общем доступе, вдруг они кому-нибудь однажды будут полезны.

Часть IV: Заключение
Подводя итог хочется призвать всех, кто только начал интересоваться машинным обучением и анализом данных попробовать создать своё "велосипед", причем не только датасеты но и программную часть, чтобы наука о данных не казалось вам магией.
Вот и закончилась статья, которую я не мог написать больше двух лет, но как говорится: «Лучше поздно чем никогда», прям на душе стало спокойно.
Желаю всем бодрого настроения и здоровья в эти нелегкие осенние месяцы.
Если кто-нибудь соберет свой интересный датасет или получит интересные результаты анализа собственных датасетов, пишите в комментарии.
===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_otkrytye_dannye (Открытые данные), #_otkrytye_dannye (открытые данные), #_mashinnoe_obuchenie (машинное обучение), #_otkrytoe_pravitelstvo (открытое правительство), #_mashinnoe_obuchenie (
Машинное обучение
), #_otkrytye_dannye (
Открытые данные
)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 19-Июн 01:01
Часовой пояс: UTC + 5