[Искусственный интеллект, Машинное обучение, Обработка изображений] MIT убрал датасет Tiny Images из-за расистских и оскорбительных терминов

Автор Сообщение
news_bot ®

Стаж: 6 лет 3 месяца
Сообщений: 27286

Создавать темы news_bot ® написал(а)
02-Июл-2020 17:31


После разгромной статьи на сайте The Register создатели набора данных Tiny Images (80 млн изображений 32×32 пикселей) извинились и убрали датасет из открытого доступа.
Разработчики из Массачусетского технологического института и Нью-Йоркского университета убрали коллекцию в офлайн и попросили других исследователей воздержаться от использования набора данных и удалить любые существующие копии.
Новость была опубликована в понедельник в письме профессоров Массачусетского технологического института Билла Фримена и Антонио Торральбы, а также профессора Нью-Йоркского университета Роба Фергюса на сайте MIT CSAIL.
Датасет Tiny Images создан в 2006 году и содержит фотографии, автоматические вырезанные из выдачи поиска по изображениям поисковых систем. Оказалось, что он содержат целый ряд расистских, сексистских и других оскорбительных ярлыков (автоматически подобраны семантической системой WordNet). Например, почти 2000 изображений помечено словом «ниггер», есть метки «подозреваемый в изнасиловании» и «растлитель малолетних».

Набор данных также содержал порнографический контент, в том числе фотографии, сделанные под женскими юбками. Присутствуют изображения половых органов с жаргонными терминами, изображения некоторых женщин помечены как «шлюхи», применяются недопустимые в современном обществе термины для чернокожих и азиатов.

Создатели набора данных в своё оправдание заявили, что датасет слишком велик, а изображения 32×32 слишком малы, что затрудняет визуальный контроль полного содержимого набора данных. По данным Google Scholar, 80 миллионов крошечных изображений цитируются более чем в 1700 научных работах.
«Предубеждения, оскорбительные и предвзятые образы и уничижительная терминология отчуждают важную часть нашего сообщества — именно тех, кого мы стараемся привлечь, — написали профессора в совместном письме. — Это также способствует вредным предубеждениям в системах искусственного интеллекта, обученных на таких данных. Кроме того, наличие таких предвзятых образов наносит ущерб усилиям по формированию культуры инклюзивности в сообществе компьютерного зрения. Это крайне прискорбно и противоречит тем ценностям, которые мы стремимся отстаивать».
Три профессора сказали, что недостатки набора данных были доведены до их сведения в аудиторской работе, опубликованной в конце прошлого месяца аспирантом Дублинского университета Абебой Бирхейн (Abeba Birhane) и аспирантом Университета Карнеги-Меллона Винаем Прабху (Vinay Uday Prabhu). Авторы говорят, что их оценка — это первая известная критика 80 миллионов крошечных изображений.
Авторы статьи и создатели набора 80 миллионов крошечных изображений сходятся во мнении, что часть проблемы исходит из автоматизированного сбора данных и автоматического подбора меток из набора данных WordNet для семантической иерархии.
В статье делается вывод о том, что крупномасштабные наборы данных изображений подрывают конфиденциальность и могут оказывать непропорционально негативное воздействие на женщин, расовые и этнические меньшинства и миноритарные общины.
Бирхейн и Прабху утверждают, что сообщество компьютерного зрения должно больше внимания уделить этическому использованию крупномасштабных наборов данных изображений сейчас, отчасти из-за растущей доступности инструментов скрапинга изображений и технологий обратного поиска изображений. Анализ крупномасштабных наборов данных изображений показывает, что это не просто вопрос данных, но культуры в академических кругах и индустрии, которая позволяет создавать крупномасштабные наборы данных без согласия участников «под видом анонимизации».
«Мы полагаем, что более глубокие проблемы коренятся в более широких структурных традициях, стимулах и дискурсе области, которая рассматривает этические проблемы в последнюю очередь. Это область, где на практике часто используется эвфемизм для обозначения отсутствия согласия», — говорится в научной статье с анализом датасетов.
Для соблюдения этических принципов авторы научной работы предлагают:
  • Размытие лиц людей в наборах данных
  • Не использовать лицензионные материалы Creative Commons
  • Собирать изображения с чёткого согласия участников
  • Включить карту аудита набора данных с крупномасштабными наборами данных изображений, по типу модельных карт, используемых Google AI, и таблиц данных для наборов данных, предложенных Microsoft Research

Нужно заметить, что оскорбительные метки обнаружены также в наборе данных ImageNet, а это самый популярный датасет в данной области. Набор данных ImageNet был представлен на выставке CVPR в 2009 году и считается самым важным для развития компьютерного зрения и машинного обучения. В то время как некоторые из самых больших наборов данных ранее насчитывали десятки тысяч изображений, ImageNet вышел сразу с более чем 14 миллионами изображений. Масштабное распознавание изображений ImageNet проходило с 2010 по 2017 год и привело к запуску целого ряда стартапов. По данным Google Scholar, датасет ImageNet цитировался почти 17 000 раз.
Создатели набора данных ImageNet обнаружили, что 1593 из 2832 категорий людей в наборе данных содержат потенциально оскорбительные ярлыки, которые, по их словам, они планируют удалить.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_iskusstvennyj_intellekt (Искусственный интеллект), #_mashinnoe_obuchenie (Машинное обучение), #_obrabotka_izobrazhenij (Обработка изображений), #_mit, #_tiny_images, #_wordnet, #_imagenet, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
, #_mashinnoe_obuchenie (
Машинное обучение
)
, #_obrabotka_izobrazhenij (
Обработка изображений
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 12-Май 19:27
Часовой пояс: UTC + 5