[Искусственный интеллект, Машинное обучение, Обработка изображений] MIT убрал датасет Tiny Images из-за расистских и оскорбительных терминов

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
02-Июл-2020 17:31

Цитировать

После разгромной статьи на сайте The Register создатели набора данных Tiny Images (80 млн изображений 32×32 пикселей) извинились и убрали датасет из открытого доступа.
Разработчики из Массачусетского технологического института и Нью-Йоркского университета убрали коллекцию в офлайн и попросили других исследователей воздержаться от использования набора данных и удалить любые существующие копии.
Новость была опубликована в понедельник в письме профессоров Массачусетского технологического института Билла Фримена и Антонио Торральбы, а также профессора Нью-Йоркского университета Роба Фергюса на сайте MIT CSAIL.
Датасет Tiny Images создан в 2006 году и содержит фотографии, автоматические вырезанные из выдачи поиска по изображениям поисковых систем. Оказалось, что он содержат целый ряд расистских, сексистских и других оскорбительных ярлыков (автоматически подобраны семантической системой WordNet). Например, почти 2000 изображений помечено словом «ниггер», есть метки «подозреваемый в изнасиловании» и «растлитель малолетних».

Набор данных также содержал порнографический контент, в том числе фотографии, сделанные под женскими юбками. Присутствуют изображения половых органов с жаргонными терминами, изображения некоторых женщин помечены как «шлюхи», применяются недопустимые в современном обществе термины для чернокожих и азиатов.

Создатели набора данных в своё оправдание заявили, что датасет слишком велик, а изображения 32×32 слишком малы, что затрудняет визуальный контроль полного содержимого набора данных. По данным Google Scholar, 80 миллионов крошечных изображений цитируются более чем в 1700 научных работах.
«Предубеждения, оскорбительные и предвзятые образы и уничижительная терминология отчуждают важную часть нашего сообщества — именно тех, кого мы стараемся привлечь, — написали профессора в совместном письме. — Это также способствует вредным предубеждениям в системах искусственного интеллекта, обученных на таких данных. Кроме того, наличие таких предвзятых образов наносит ущерб усилиям по формированию культуры инклюзивности в сообществе компьютерного зрения. Это крайне прискорбно и противоречит тем ценностям, которые мы стремимся отстаивать».
Три профессора сказали, что недостатки набора данных были доведены до их сведения в аудиторской работе, опубликованной в конце прошлого месяца аспирантом Дублинского университета Абебой Бирхейн (Abeba Birhane) и аспирантом Университета Карнеги-Меллона Винаем Прабху (Vinay Uday Prabhu). Авторы говорят, что их оценка — это первая известная критика 80 миллионов крошечных изображений.
Авторы статьи и создатели набора 80 миллионов крошечных изображений сходятся во мнении, что часть проблемы исходит из автоматизированного сбора данных и автоматического подбора меток из набора данных WordNet для семантической иерархии.
В статье делается вывод о том, что крупномасштабные наборы данных изображений подрывают конфиденциальность и могут оказывать непропорционально негативное воздействие на женщин, расовые и этнические меньшинства и миноритарные общины.
Бирхейн и Прабху утверждают, что сообщество компьютерного зрения должно больше внимания уделить этическому использованию крупномасштабных наборов данных изображений сейчас, отчасти из-за растущей доступности инструментов скрапинга изображений и технологий обратного поиска изображений. Анализ крупномасштабных наборов данных изображений показывает, что это не просто вопрос данных, но культуры в академических кругах и индустрии, которая позволяет создавать крупномасштабные наборы данных без согласия участников «под видом анонимизации».
«Мы полагаем, что более глубокие проблемы коренятся в более широких структурных традициях, стимулах и дискурсе области, которая рассматривает этические проблемы в последнюю очередь. Это область, где на практике часто используется эвфемизм для обозначения отсутствия согласия», — говорится в научной статье с анализом датасетов.
Для соблюдения этических принципов авторы научной работы предлагают:

Размытие лиц людей в наборах данных
Не использовать лицензионные материалы Creative Commons
Собирать изображения с чёткого согласия участников
Включить карту аудита набора данных с крупномасштабными наборами данных изображений, по типу модельных карт, используемых Google AI, и таблиц данных для наборов данных, предложенных Microsoft Research

Нужно заметить, что оскорбительные метки обнаружены также в наборе данных ImageNet, а это самый популярный датасет в данной области. Набор данных ImageNet был представлен на выставке CVPR в 2009 году и считается самым важным для развития компьютерного зрения и машинного обучения. В то время как некоторые из самых больших наборов данных ранее насчитывали десятки тысяч изображений, ImageNet вышел сразу с более чем 14 миллионами изображений. Масштабное распознавание изображений ImageNet проходило с 2010 по 2017 год и привело к запуску целого ряда стартапов. По данным Google Scholar, датасет ImageNet цитировался почти 17 000 раз.
Создатели набора данных ImageNet обнаружили, что 1593 из 2832 категорий людей в наборе данных содержат потенциально оскорбительные ярлыки, которые, по их словам, они планируют удалить.
===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_iskusstvennyj_intellekt (Искусственный интеллект), #_mashinnoe_obuchenie (Машинное обучение), #_obrabotka_izobrazhenij (Обработка изображений), #_mit, #_tiny_images, #_wordnet, #_imagenet, #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_mashinnoe_obuchenie (
Машинное обучение
), #_obrabotka_izobrazhenij (
Обработка изображений
)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 18-Июн 21:13
Часовой пояс: UTC + 5