[Работа с видео, Машинное обучение, Искусственный интеллект] Nvidia показала генератор говорящих голов для видеоконференций из 2D-изображений
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Исследователи Nvidia AI представили систему на ИИ, которая создает говорящие головы для видеоконференций из одного 2D-изображения. Авторы разработки говорят, что алгоритм способен выполнять широкий спектр манипуляций, включая вращения и перемещения головы человека.
ИИ использует первый кадр в видео как 2D-фотографию, а затем методом самостоятельного обучения собирает ключевые точки 3D в видео. Преобразуя эти ключевые точки, система демонстрирует более высокие коэффициенты сжатия, чем прежние существующие методы.
Система обеспечивает качество видео H.264, используя одну десятую пропускной способности, которая ранее требовалась при подобных операциях.
Извините, данный ресурс не поддреживается. :( В октябре Nvidia показала Maxine, сервис видеоконференцсвязи. Помимо виртуальных фонов, как в Zoom, он предоставит набор функций на базе искусственного интеллекта, таких как выравнивание лиц и шумоподавление, диалоговый аватар AI или живой перевод.
Nvidia активно работает над генеративными состязательными моделями (GAN), такими как StyleGan. Эти модели потенциально можно применять в сферах развлечений и игр, а также для создания дипфейков.
Компания работает с технологией синтеза видео в видео (vid2vid), которая направлена на преобразование входного семантического видео в выходное фотореалистичное. Существующие подходы имеют два основных ограничения. Во-первых, им нужны данные, а для обучения —многочисленные изображения целевого объекта или сцены. Во-вторых, у модели ограничены возможности обобщения. Определенная модель vid2vid может синтезировать только позы одного человека в обучающей выборке.
В новой представленной системе возможность краткого обобщения достигается с помощью нового модуля генерации веса, использующего механизм внимания.
Извините, данный ресурс не поддреживается. :( Летом в Disney Research представили нейросеть, которая заменяет лица на фотографиях и в видео в полностью автоматизированном режиме. Дипфейк реалистично копирует мимику и речь оригинала.
Весной программист разместил на YouTube видео, в котором он подставляет себе лицо Илона Маска и участвует в различных видеоконференциях Zoom. Для создания дипфейка использовался открытый исходный код «First Order Motion Model for Image Animation». Алгоритм подстраивает изображение в реальном времени, без предварительного «знакомства» с несколькими фотографиями подставляемого лица.
===========
Источник:
habr.com
===========
Похожие новости:
- [Обработка изображений, Искусственный интеллект, Здоровье] Модель для распознавания степени поражения лёгких на КТ: мы резко увеличили точность сортировки больных
- [Разработка игр, Машинное обучение, Карьера в IT-индустрии] Семь талантливых стажеров AI@Unity 2020. Часть 1 (перевод)
- [Искусственный интеллект, Транспорт] «Боинг» протестировала автономные самолёты, которая координируются друг с другом в воздухе
- [Видеокарты, Игры и игровые приставки] NVIDIA представила GeForce RTX 3060 Ti
- [Разработка робототехники, Конференции, Робототехника, Искусственный интеллект, DIY или Сделай сам] Проект SweetieBot: компактный шагающий робот под управлением ROS
- [Машинное обучение, Научно-популярное, Искусственный интеллект] Кризис воспроизводимости исследований в области искусственного интеллекта (перевод)
- [Обработка изображений, Машинное обучение, Компьютерное железо, Видеокарты, Natural Language Processing] Играемся с Новыми GPU на базе Ampere от Nvidia и пробуем MIG
- [Машинное обучение, Natural Language Processing, Голосовые интерфейсы] Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва
- [Высокая производительность, Искусственный интеллект, Логические игры] О шахматах. И не только
- [Python, Машинное обучение, Искусственный интеллект] Делаем печатные ссылки кликабельными с помощью TensorFlow 2 Object Detection API (перевод)
Теги для поиска: #_rabota_s_video (Работа с видео), #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_nvidia, #_gan, #_generatsija_izobrazhenij (генерация изображений), #_videokonferentssvjaz (видеоконференцсвязь), #_dipfejki (дипфейки), #_rabota_s_video (
Работа с видео
), #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 13:41
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Исследователи Nvidia AI представили систему на ИИ, которая создает говорящие головы для видеоконференций из одного 2D-изображения. Авторы разработки говорят, что алгоритм способен выполнять широкий спектр манипуляций, включая вращения и перемещения головы человека. ИИ использует первый кадр в видео как 2D-фотографию, а затем методом самостоятельного обучения собирает ключевые точки 3D в видео. Преобразуя эти ключевые точки, система демонстрирует более высокие коэффициенты сжатия, чем прежние существующие методы. Система обеспечивает качество видео H.264, используя одну десятую пропускной способности, которая ранее требовалась при подобных операциях. Извините, данный ресурс не поддреживается. :( В октябре Nvidia показала Maxine, сервис видеоконференцсвязи. Помимо виртуальных фонов, как в Zoom, он предоставит набор функций на базе искусственного интеллекта, таких как выравнивание лиц и шумоподавление, диалоговый аватар AI или живой перевод. Nvidia активно работает над генеративными состязательными моделями (GAN), такими как StyleGan. Эти модели потенциально можно применять в сферах развлечений и игр, а также для создания дипфейков. Компания работает с технологией синтеза видео в видео (vid2vid), которая направлена на преобразование входного семантического видео в выходное фотореалистичное. Существующие подходы имеют два основных ограничения. Во-первых, им нужны данные, а для обучения —многочисленные изображения целевого объекта или сцены. Во-вторых, у модели ограничены возможности обобщения. Определенная модель vid2vid может синтезировать только позы одного человека в обучающей выборке. В новой представленной системе возможность краткого обобщения достигается с помощью нового модуля генерации веса, использующего механизм внимания. Извините, данный ресурс не поддреживается. :( Летом в Disney Research представили нейросеть, которая заменяет лица на фотографиях и в видео в полностью автоматизированном режиме. Дипфейк реалистично копирует мимику и речь оригинала. Весной программист разместил на YouTube видео, в котором он подставляет себе лицо Илона Маска и участвует в различных видеоконференциях Zoom. Для создания дипфейка использовался открытый исходный код «First Order Motion Model for Image Animation». Алгоритм подстраивает изображение в реальном времени, без предварительного «знакомства» с несколькими фотографиями подставляемого лица. =========== Источник: habr.com =========== Похожие новости:
Работа с видео ), #_mashinnoe_obuchenie ( Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 13:41
Часовой пояс: UTC + 5