[Python, Программирование, Data Mining, Машинное обучение, Искусственный интеллект] DALL · E от OpenAi: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Пару дней назад мы подводили ИИ итоги 2020-го года в мире машинного обучения. 2021-й год только начался, но мы определенно видим одну из важнейших работ в области ИИ текущего года.Итак, исследователи в области искусственного интеллекта из openai создали нейронную сеть под названием DALL · E, которая генерирует изображения из текстового описания на естественном языке.
Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг» — мой субъективный телеграм-канал об искусстве глубокого обучения, нейронных сетях и новостях из мира искусственного интеллекта.
DALL · E представляет собой версию GPT-3 с 12 миллиардами параметров, обученную генерировать изображения из текстовых описаний на датасете из пар текст-изображение. Исследователи обнаружили, что DALL · E обладает огромным репертуаром генеративных возможностей, включая возможность создания антропоморфных животных и других необычных объектов, комбинирующих совершенно нетривиальные свойства, например "кресло в форме авокадо."
Изображения, сгенерированные DALL · E на основании текстового описания "кресло в форме авокадо"Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3. И теперь DALL · E показывает невиданные доселе чудеса манипулирования визуальными концепциями с помощью естественного языка!Как и GPT-3, DALL · E — это языковая модель-трансформер, принимающая на вход текст и изображение, как последовательность размером до 1280 токенов. Модель обучена максимизировать правдоподобие при генерации токенов, следующих один за другим.Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.
Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной "cherry picking". Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP. Text: a collection of glasses sitting on the table
Изображения, сгенерированные DALL · EЗабавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.Text: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants
Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны
DALL · E может не только генерировать изображение с нуля, но и регенерировать (достраивать) любую прямоугольную область существующего изображения, вплоть до нижнего правого угла изображения, в соответствии с текстовым описанием. В качестве примера за основу взяли верхнюю часть фотографии бюста Гомера. Модель принимает на вход это изображение и текст: a photograph of a bust of homerText: a photograph of a bust of homer
Фотография бюста Гомера Особенно поражает то, что DALL · E выучил исторический и географический контекст. Модель способна к обобщению тенденций в дизайне и технологиях. Вот пример того, как DALL · E генерирует телефонные аппараты разных десятилетий двадцатого века.Text: a photo of phone from the ...
Фотографии телефонов разных десятилетий XX векаНазвание модели DALL · E является словослиянием имени художника Сальвадора Дали и робота WALL · E от Pixar. Вышел такой своеобразный Вали-Дали. Вообще в мире ИИ "придумывание" таких оригинальных названий — это некий тренд. Что определенно радует, и делает эту область еще более оригинальной.
Старый добрый перенос стиля WALL · E в DalíДля пущего сюрреализма и оправдания своего названия DALL · E "попросили" сгенерировать животных, синтезированных из множества понятий, включая музыкальные инструменты, продукты питания и предметы домашнего обихода. Хотя это не всегда удавалось, исследователи обнаруживали, что DALL · E иногда принимает во внимание формы двух объектов при решении о том, как их объединить. Например, когда предлагается нарисовать «улитку-арфу».Text: a snail made of harp
Улитка-Арфа. Фантастические твари и где они обитают..ВыводDALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме. Что можно сказать? Наступает эра "великого объединения" языковых моделей, компьютерного зрения и генеративных сетей. То что мы видим сейчас, уже поражает воображение своими результатами, не говоря уже о том, насколько подобные подходы могут изменить процесс генерации контента. Как будет возможность, подготовлю уже технический разбор самой модели DALL · E, учитывая, что ребята из openai обещают предоставить более подробную информацию об архитектуре и обучении модели в ближайшее время.Что ты думаешь о DALL · E и подобных генеративных нейронных моделях, способных создавать визуальный контент по текстовому описанию? Где может быть полезна такая технология? Насколько тебя впечатлили результаты? Давай обсудим в комментариях.
===========
Источник:
habr.com
===========
Похожие новости:
- [Промышленное программирование, Программирование микроконтроллеров] Сервер Modbus TCP для Simatic S7-1200 / S7-1500
- [Программирование, Алгоритмы, Компиляторы, Отладка] О реализации ввода-вывода с именами
- [JavaScript, TensorFlow] Фронтендер пишет нейронки. Уровень сложности «хочу на ручки»
- [Ruby, Программирование, Алгоритмы, Математика] Практическое применение алгоритма для представления Цекендорфа
- [Алгоритмы, Математика, Машинное обучение] Видео курсов Computer Science клуба
- [Python, C++, C#, Математика, Профессиональная литература] С каких книг можно начать изучать программирование (Python, C#, C++, Java, Lua, …)
- [JavaScript, Программирование, Atlassian] Как я подружил BPMN и Bitbucket
- [Программирование, Разработка игр, WebGL, Прототипирование, Godot] Как собрать паука в Godot, Unigine или PlayCanvas
- [Системное администрирование, Программирование, IT-инфраструктура, DevOps] Создание современных процессов CI/CD для бессерверных приложений с Red Hat OpenShift Pipelines и Argo CD. Часть 1 (перевод)
- [Чулан] Как автор деньги возвращал (11 450 евро) с Lufthansa, RyanAir, Booking и других
Теги для поиска: #_python, #_programmirovanie (Программирование), #_data_mining, #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_openai, #_neural_networks, #_machinelearning, #_ai, #_nejroseti (нейросети), #_nejroset (нейросеть), #_data_science, #_deep_learning, #_glubokoe_obuchenie (глубокое обучение), #_mashinnoe_obuchenie (машинное обучение), #_python, #_programmirovanie (
Программирование
), #_data_mining, #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 15:29
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Пару дней назад мы подводили ИИ итоги 2020-го года в мире машинного обучения. 2021-й год только начался, но мы определенно видим одну из важнейших работ в области ИИ текущего года.Итак, исследователи в области искусственного интеллекта из openai создали нейронную сеть под названием DALL · E, которая генерирует изображения из текстового описания на естественном языке. Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг» — мой субъективный телеграм-канал об искусстве глубокого обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Изображения, сгенерированные DALL · E на основании текстового описания "кресло в форме авокадо"Можно сказать, что уже были все предпосылки к созданию DALL · E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3. И теперь DALL · E показывает невиданные доселе чудеса манипулирования визуальными концепциями с помощью естественного языка!Как и GPT-3, DALL · E — это языковая модель-трансформер, принимающая на вход текст и изображение, как последовательность размером до 1280 токенов. Модель обучена максимизировать правдоподобие при генерации токенов, следующих один за другим.Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий. Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной "cherry picking". Примерами являются изображения, полученные при помощи DALL · E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных созданным ранее (теми же openai) нейронным ранжированием CLIP. Text: a collection of glasses sitting on the table Изображения, сгенерированные DALL · EЗабавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.Text: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants Эмодзи пингвиненка, одетого в голубую шапку, красные перчатки, зеленую футболку и желтые штаны DALL · E может не только генерировать изображение с нуля, но и регенерировать (достраивать) любую прямоугольную область существующего изображения, вплоть до нижнего правого угла изображения, в соответствии с текстовым описанием. В качестве примера за основу взяли верхнюю часть фотографии бюста Гомера. Модель принимает на вход это изображение и текст: a photograph of a bust of homerText: a photograph of a bust of homer Фотография бюста Гомера Особенно поражает то, что DALL · E выучил исторический и географический контекст. Модель способна к обобщению тенденций в дизайне и технологиях. Вот пример того, как DALL · E генерирует телефонные аппараты разных десятилетий двадцатого века.Text: a photo of phone from the ... Фотографии телефонов разных десятилетий XX векаНазвание модели DALL · E является словослиянием имени художника Сальвадора Дали и робота WALL · E от Pixar. Вышел такой своеобразный Вали-Дали. Вообще в мире ИИ "придумывание" таких оригинальных названий — это некий тренд. Что определенно радует, и делает эту область еще более оригинальной. Старый добрый перенос стиля WALL · E в DalíДля пущего сюрреализма и оправдания своего названия DALL · E "попросили" сгенерировать животных, синтезированных из множества понятий, включая музыкальные инструменты, продукты питания и предметы домашнего обихода. Хотя это не всегда удавалось, исследователи обнаруживали, что DALL · E иногда принимает во внимание формы двух объектов при решении о том, как их объединить. Например, когда предлагается нарисовать «улитку-арфу».Text: a snail made of harp Улитка-Арфа. Фантастические твари и где они обитают..ВыводDALL · E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме. Что можно сказать? Наступает эра "великого объединения" языковых моделей, компьютерного зрения и генеративных сетей. То что мы видим сейчас, уже поражает воображение своими результатами, не говоря уже о том, насколько подобные подходы могут изменить процесс генерации контента. Как будет возможность, подготовлю уже технический разбор самой модели DALL · E, учитывая, что ребята из openai обещают предоставить более подробную информацию об архитектуре и обучении модели в ближайшее время.Что ты думаешь о DALL · E и подобных генеративных нейронных моделях, способных создавать визуальный контент по текстовому описанию? Где может быть полезна такая технология? Насколько тебя впечатлили результаты? Давай обсудим в комментариях. =========== Источник: habr.com =========== Похожие новости:
Программирование ), #_data_mining, #_mashinnoe_obuchenie ( Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 15:29
Часовой пояс: UTC + 5