[Обработка изображений, Машинное обучение] 5 подходов к разметке данных для проектов машинного обучения (перевод)

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
10-Ноя-2020 00:31

Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна. Качество проекта по машинного обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против. Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаний с собственным штатом дата-аналитиков. 
Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут нужно четкое планирование и организация; новых сотрудников нужно будет обучить, чтобы они включились в работу и выполнили ее согласно требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, вам нужно будет его приобрести. Краудсорсинг: краудсорсинговые платформы – это способ решить конкретную задачу при помощи большого количества исполнителей. Так как в краудсорсинге есть исполнители из самых разных стран и их можно отфильтровать по уровню, то получается быстрый и довольно бюджетный способ. При этом краудсорсинговые платформы довольно сильно различаются с точки зрения квалификации исполнителей, контроля качества и инструментов для управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно учитывать все эти параметры. Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему конкретному проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератора и дискриминатора), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими. «Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.  
В этой таблице мы приводим наглядное сравнение вышеописанных методов: Достоинства НедостаткиIn-houseКонтроль процессаВысокое качествоПредсказуемый результатБольшие временные затраты Аутсорсинг Возможность собрать команду под конкретную задачуВремя на обучениеПланирование, организация процессаКраудсорсингМасштабируемостьГлобальные задачиСкоростьСтоимость работТрудно контролировать качествоТребуются ресурсы на сбор данных о платформе Компании, специализирующиеся на обработке данныхВысокое качествоМасштабируемостьГлобальные задачи СкоростьВысокая стоимостьСинтезирование и расширениеЭффективность по времениМожно собрать много данных для обученияНеобходимы высокие вычислительные мощностиПрограммный методАвтоматизация Скорость Низкий уровень качестваКаждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы. -------------Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.
===========
Источник:
habr.com
===========

===========
Автор оригинала: Hengtee Lim
===========
Похожие новости: Теги для поиска: #_obrabotka_izobrazhenij (Обработка изображений), #_mashinnoe_obuchenie (Машинное обучение), #_razmetka_dannyh (разметка данных), #_nejroseti (нейросети), #_deep_learning_school, #_mashinnoe_obuchenie (машинное обучение), #_new_professions_lab, #_blog_kompanii_new_professions_lab (
Блог компании New Professions Lab
)
, #_obrabotka_izobrazhenij (
Обработка изображений
)
, #_mashinnoe_obuchenie (
Машинное обучение
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 23-Ноя 00:27
Часовой пояс: UTC + 5