[Машинное обучение, Искусственный интеллект] Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
30-Мар-2021 01:31


Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно. Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.«Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», —указывают авторы исследования.Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с ​​исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_nejroseti (нейросети), #_imagenet, #_kompternoe_zrenie (компьтерное зрение), #_mti (мти), #_quickdraw, #_mashinnoe_obuchenie (
Машинное обучение
)
, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 23:46
Часовой пояс: UTC + 5