NVIDIA открыла код StyleGAN3, системы машинного обучения для синтеза лиц
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Компания NVIDIA опубликовала исходные тексты StyleGAN3, системы машинного обучения на основе генеративно-состязательной нейронной сети (GAN), нацеленной на синтезирование реалистичных изображений лиц людей. Код написан на языке Python c использованием фреймворка PyTorch и распространяется под лицензией NVIDIA Source Code License, накладывающей ограничение на использование в коммерческих целях.
Для загрузки также доступны готовые натренированные модели, обученные на коллекции Flickr-Faces-HQ (FFHQ), включающей 70 тысяч высококачественных (1024x1024) PNG-изображений лиц людей. Кроме того имеются модели, построенные на основе коллекций AFHQv2 (фотографии морд животных) и Metfaces (изображения лиц людей с портретов классической живописи). При разработке акцент делается на лица, но система может быть обучена для генерации любых объектов, например, пейзажей и автомобилей. Дополнительно предоставляются инструменты для самостоятельного обучения нейронной сети по собственным коллекциям изображений. Для работы требуется одна или несколько видеокарт NVIDIA (рекомендуется GPU Tesla V100 или A100), как минимум 12 ГБ ОЗУ, PyTorch 1.9 и инструментарий CUDA 11.1+. Для определения искусственного характера полученных лиц развивается специальный детектор.
Система позволяет синтезировать изображение нового лица на основе интерполяции особенностей нескольких лиц, комбинируя свойственные им черты, а также адаптируя итоговое изображение под необходимый возраст, пол, длину волос, характер улыбки, форму носа, цвет кожи, очки, ракурс фотографии. Генератор рассматривает изображение как коллекцию стилей, автоматически отделяет характерные детали (веснушки, волосы, очки) от общих высокоуровневых атрибутов (поза, пол, возрастные изменения) и позволяет комбинировать их в произвольном виде с определением доминирующих свойств через весовые коэффициенты. В результате генерируются изображения, внешне неотличимые от настоящих фотографий.
Первый вариант технологии StyleGAN был опубликован в 2019 году, после чего в 2020 году была предложена улучшенная редакция StyleGAN2, позволяющая добиться улучшения качества изображений и устраняющая некоторые артефакты. При этом система оставалась статичной, т.е. не позволяла добиться реалистичной анимации и движения лица. При разработке StyleGAN3 главной целью стала адаптация технологии для её применения в анимации и видео.
В StyleGAN3 использована переработанная архитектура генерации изображений, избавленная от алиасинга, и предложены новые сценарии обучения нейронной сети. В состав включены новые утилиты для интерактивной визуализации (visualizer.py), анализа (avg_spectra.py) и генерации видео (gen_video.py). В реализации также сокращено потребление памяти и ускорен процесс обучения.
Ключевой особенностью архитектуры StyleGAN3 стал переход к интерпретации всех сигналов в нейронной сети в форме непрерывных процессов, что позволило при формировании деталей манипулировать относительными позициями, не привязанными к абсолютным координатам отдельных пикселей на изображении, а закреплёнными к поверхности изображённых объектов. В StyleGAN и StyleGAN2 привязка к пикселям при генерации приводила к проблемам при динамической визуализации, например, при движении изображения наблюдалось рассогласование мелких деталей, таких как морщины и волоски, которые двигались как бы отдельно от остального лица. В StyleGAN3 эти проблемы решены и технология стала вполне пригодна для формирования видео.
Дополнительно можно отметить анонс создания компаниями NVIDIA и Microsoft крупнейшей языковой модели MT-NLG на основе глубокой нейронной сети с архитектурой "трансформер". Модель охватывает 530 миллиардов параметров, а для обучения был задействован кластер, насчитывающий 4480 GPU (560 серверов DGX A100 с 8 GPU A100 80GB в каждом). В качестве областей применения модели называется решение задач по обработке информации на естественном языке, таких как
прогнозирование завершения незаконченного предложения, ответы на вопросы, понимание прочитанного, формирование выводов на естественном языке и разбор неоднозначности смысла слов.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://news.ycombinator.com/i...)
- OpenNews: NVIDIA открыла код системы машинного обучения, синтезирующей пейзажи по наброскам
- OpenNews: NVIDIA открыла код StyleGAN, генератора лиц на основе машинного обучения
- OpenNews: Реализация нейронной сети для синтеза и редактирования лиц
- OpenNews: Открыт код Spleeter, системы для разделения музыки и голоса
- OpenNews: NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice
Похожие новости:
- Выпуск проприетарного драйвера NVIDIA 470.74
- Новая версия почтового сервера Exim 4.95
- Проект Headscale развивает открытый сервер для распределённой VPN-сети Tailscale
- Выпуск дистрибутива Tails 4.22
- Выпуск Bubblewrap 0.5.0, прослойки для создания изолированных окружений
- Выпуск Tor Browser 10.5.4 и дистрибутива Tails 4.21
- Третий бета-выпуск операционной системы Haiku R1
- NVIDIA опубликовала драйвер 470.57.02, открыла код RTXMU и добавила поддержку Linux в RTX SDK
- [Я пиарюсь] AI Transformation как новая образовательная реальность
- [Информационная безопасность, Программирование, Производство и разработка электроники, Процессоры] Как ускорить шифрование по ГОСТ 28147-89 на процессоре Baikal-M
Теги для поиска: #_nvidia, #_ai, #_image, #_stylegan, #_pytorch
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 02:37
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Компания NVIDIA опубликовала исходные тексты StyleGAN3, системы машинного обучения на основе генеративно-состязательной нейронной сети (GAN), нацеленной на синтезирование реалистичных изображений лиц людей. Код написан на языке Python c использованием фреймворка PyTorch и распространяется под лицензией NVIDIA Source Code License, накладывающей ограничение на использование в коммерческих целях. Для загрузки также доступны готовые натренированные модели, обученные на коллекции Flickr-Faces-HQ (FFHQ), включающей 70 тысяч высококачественных (1024x1024) PNG-изображений лиц людей. Кроме того имеются модели, построенные на основе коллекций AFHQv2 (фотографии морд животных) и Metfaces (изображения лиц людей с портретов классической живописи). При разработке акцент делается на лица, но система может быть обучена для генерации любых объектов, например, пейзажей и автомобилей. Дополнительно предоставляются инструменты для самостоятельного обучения нейронной сети по собственным коллекциям изображений. Для работы требуется одна или несколько видеокарт NVIDIA (рекомендуется GPU Tesla V100 или A100), как минимум 12 ГБ ОЗУ, PyTorch 1.9 и инструментарий CUDA 11.1+. Для определения искусственного характера полученных лиц развивается специальный детектор. Система позволяет синтезировать изображение нового лица на основе интерполяции особенностей нескольких лиц, комбинируя свойственные им черты, а также адаптируя итоговое изображение под необходимый возраст, пол, длину волос, характер улыбки, форму носа, цвет кожи, очки, ракурс фотографии. Генератор рассматривает изображение как коллекцию стилей, автоматически отделяет характерные детали (веснушки, волосы, очки) от общих высокоуровневых атрибутов (поза, пол, возрастные изменения) и позволяет комбинировать их в произвольном виде с определением доминирующих свойств через весовые коэффициенты. В результате генерируются изображения, внешне неотличимые от настоящих фотографий. Первый вариант технологии StyleGAN был опубликован в 2019 году, после чего в 2020 году была предложена улучшенная редакция StyleGAN2, позволяющая добиться улучшения качества изображений и устраняющая некоторые артефакты. При этом система оставалась статичной, т.е. не позволяла добиться реалистичной анимации и движения лица. При разработке StyleGAN3 главной целью стала адаптация технологии для её применения в анимации и видео. В StyleGAN3 использована переработанная архитектура генерации изображений, избавленная от алиасинга, и предложены новые сценарии обучения нейронной сети. В состав включены новые утилиты для интерактивной визуализации (visualizer.py), анализа (avg_spectra.py) и генерации видео (gen_video.py). В реализации также сокращено потребление памяти и ускорен процесс обучения. Ключевой особенностью архитектуры StyleGAN3 стал переход к интерпретации всех сигналов в нейронной сети в форме непрерывных процессов, что позволило при формировании деталей манипулировать относительными позициями, не привязанными к абсолютным координатам отдельных пикселей на изображении, а закреплёнными к поверхности изображённых объектов. В StyleGAN и StyleGAN2 привязка к пикселям при генерации приводила к проблемам при динамической визуализации, например, при движении изображения наблюдалось рассогласование мелких деталей, таких как морщины и волоски, которые двигались как бы отдельно от остального лица. В StyleGAN3 эти проблемы решены и технология стала вполне пригодна для формирования видео. Дополнительно можно отметить анонс создания компаниями NVIDIA и Microsoft крупнейшей языковой модели MT-NLG на основе глубокой нейронной сети с архитектурой "трансформер". Модель охватывает 530 миллиардов параметров, а для обучения был задействован кластер, насчитывающий 4480 GPU (560 серверов DGX A100 с 8 GPU A100 80GB в каждом). В качестве областей применения модели называется решение задач по обработке информации на естественном языке, таких как прогнозирование завершения незаконченного предложения, ответы на вопросы, понимание прочитанного, формирование выводов на естественном языке и разбор неоднозначности смысла слов. =========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 02:37
Часовой пояс: UTC + 5