[Машинное обучение, Искусственный интеллект] Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно. Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.«Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», —указывают авторы исследования.Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей.
===========
Источник:
habr.com
===========
Похожие новости:
- [Машинное обучение, Читальный зал, Научно-популярное] Как работает компьютерное зрение (перевод)
- [Исследования и прогнозы в IT, Развитие стартапа, Искусственный интеллект, Финансы в IT] В 2020 году инвестиции в ИИ в России снизились на четверть
- [Nginx, Машинное обучение, DevOps, Микросервисы, Flask] Развертывание ML модели в Docker с использованием Flask (REST API) + масштабирование нагрузки через Nginx балансер
- [Big Data, Accessibility, Машинное обучение, Искусственный интеллект] Дискриминация в алгоритмах ML существует — и нет, это не либеральные сказки
- [IT-инфраструктура, Машинное обучение] ML не в радость: что может провалить проект по внедрению machine learning
- [Python, Машинное обучение, Искусственный интеллект, Natural Language Processing] LIT – Инспектор для вашего NLP. Обзор, установка, тест
- [Разработка мобильных приложений, Машинное обучение, Искусственный интеллект, Natural Language Processing] OpenAI: более 300 сторонних приложений работают на GPT-3
- [Децентрализованные сети, Информационная безопасность, Машинное обучение, Искусственный интеллект] Роевое обучение: превратите распределенные данные в фактор успеха
- [Серверное администрирование, Компьютерное железо, DIY или Сделай сам] Собрать сервер для глубокого обучения за пол ляма может и ребенок. Или нет?
- [Разработка мобильных приложений, Git, Big Data, Машинное обучение] DVC — Git для данных на примере ML-проекта
Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_nejroseti (нейросети), #_imagenet, #_kompternoe_zrenie (компьтерное зрение), #_mti (мти), #_quickdraw, #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 17:42
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно. Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.«Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», —указывают авторы исследования.Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей. =========== Источник: habr.com =========== Похожие новости:
Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 17:42
Часовой пояс: UTC + 5