[Обработка изображений, Машинное обучение] 5 подходов к разметке данных для проектов машинного обучения (перевод)
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна. Качество проекта по машинного обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против. Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаний с собственным штатом дата-аналитиков.
Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут нужно четкое планирование и организация; новых сотрудников нужно будет обучить, чтобы они включились в работу и выполнили ее согласно требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, вам нужно будет его приобрести. Краудсорсинг: краудсорсинговые платформы – это способ решить конкретную задачу при помощи большого количества исполнителей. Так как в краудсорсинге есть исполнители из самых разных стран и их можно отфильтровать по уровню, то получается быстрый и довольно бюджетный способ. При этом краудсорсинговые платформы довольно сильно различаются с точки зрения квалификации исполнителей, контроля качества и инструментов для управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно учитывать все эти параметры. Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему конкретному проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератора и дискриминатора), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими. «Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.
В этой таблице мы приводим наглядное сравнение вышеописанных методов: Достоинства НедостаткиIn-houseКонтроль процессаВысокое качествоПредсказуемый результатБольшие временные затраты Аутсорсинг Возможность собрать команду под конкретную задачуВремя на обучениеПланирование, организация процессаКраудсорсингМасштабируемостьГлобальные задачиСкоростьСтоимость работТрудно контролировать качествоТребуются ресурсы на сбор данных о платформе Компании, специализирующиеся на обработке данныхВысокое качествоМасштабируемостьГлобальные задачи СкоростьВысокая стоимостьСинтезирование и расширениеЭффективность по времениМожно собрать много данных для обученияНеобходимы высокие вычислительные мощностиПрограммный методАвтоматизация Скорость Низкий уровень качестваКаждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы. -------------Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.
===========
Источник:
habr.com
===========
===========
Автор оригинала: Hengtee Lim
===========Похожие новости:
- [Машинное обучение] Как научить бабушку писать мемуары на самоизоляции с помощью VOSK-API. «Речь в текст» спешит на помощь
- [Работа с видео, Обработка изображений, Браузеры, Машинное обучение, Видеоконференцсвязь] Размытие фона в Google Meet с расчётом ML в браузере (перевод)
- [Информационная безопасность] Security Week 46: подсматривание паролей в телеконференциях
- [Python, Программирование, Машинное обучение, Искусственный интеллект] Машинное обучение на помощь руководителю разработки
- [Программирование, Алгоритмы, Машинное обучение] DARPA Challenge в песочнице
- [Java, NoSQL, Big Data, Машинное обучение, Natural Language Processing] Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #1 — Теория
- [Алгоритмы, Машинное обучение, Искусственный интеллект] Рекомендательные системы, основанные на графах
- [Машинное обучение, Исследования и прогнозы в IT, Финансы в IT, Транспорт] Как оптимизировать работу аэропортов с помощью машинного обучения
- [Python, Машинное обучение, Социальные сети и сообщества] Toxic Comments Detection in Russian
- [Python, Машинное обучение, Искусственный интеллект, Natural Language Processing] Команда МФТИ второй год подряд в конкурсе от Amazon — Alexa Prize Socialbot Grand Challenge 4
Теги для поиска: #_obrabotka_izobrazhenij (Обработка изображений), #_mashinnoe_obuchenie (Машинное обучение), #_razmetka_dannyh (разметка данных), #_nejroseti (нейросети), #_deep_learning_school, #_mashinnoe_obuchenie (машинное обучение), #_new_professions_lab, #_blog_kompanii_new_professions_lab (
Блог компании New Professions Lab
), #_obrabotka_izobrazhenij (
Обработка изображений
), #_mashinnoe_obuchenie (
Машинное обучение
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:28
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна. Качество проекта по машинного обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против. Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаний с собственным штатом дата-аналитиков. Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут нужно четкое планирование и организация; новых сотрудников нужно будет обучить, чтобы они включились в работу и выполнили ее согласно требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, вам нужно будет его приобрести. Краудсорсинг: краудсорсинговые платформы – это способ решить конкретную задачу при помощи большого количества исполнителей. Так как в краудсорсинге есть исполнители из самых разных стран и их можно отфильтровать по уровню, то получается быстрый и довольно бюджетный способ. При этом краудсорсинговые платформы довольно сильно различаются с точки зрения квалификации исполнителей, контроля качества и инструментов для управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно учитывать все эти параметры. Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему конкретному проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератора и дискриминатора), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими. «Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы. В этой таблице мы приводим наглядное сравнение вышеописанных методов: Достоинства НедостаткиIn-houseКонтроль процессаВысокое качествоПредсказуемый результатБольшие временные затраты Аутсорсинг Возможность собрать команду под конкретную задачуВремя на обучениеПланирование, организация процессаКраудсорсингМасштабируемостьГлобальные задачиСкоростьСтоимость работТрудно контролировать качествоТребуются ресурсы на сбор данных о платформе Компании, специализирующиеся на обработке данныхВысокое качествоМасштабируемостьГлобальные задачи СкоростьВысокая стоимостьСинтезирование и расширениеЭффективность по времениМожно собрать много данных для обученияНеобходимы высокие вычислительные мощностиПрограммный методАвтоматизация Скорость Низкий уровень качестваКаждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы. -------------Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года. =========== Источник: habr.com =========== =========== Автор оригинала: Hengtee Lim ===========Похожие новости:
Блог компании New Professions Lab ), #_obrabotka_izobrazhenij ( Обработка изображений ), #_mashinnoe_obuchenie ( Машинное обучение ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:28
Часовой пояс: UTC + 5