[Звук, Искусственный интеллект, Алгоритмы] Нейросеть DeepSinger генерирует голос, который поёт на китайском и английском
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Исследователи из Чжэцзянского университета и компании Microsoft разработали нейросеть DeepSinger, которая может генерировать голос, поющий на нескольких языках. Нейросеть обучается, захватывая голос исполнителей из различных песен. Как объясняют исследователи, поющие голоса имеют более сложные паттерны и ритмы, чем обычные. Кроме того, как указывает VentureBeat, существует не так много общедоступных наборов данных по обучению пению. Песни, которые используются в процессе обучения, должны анализироваться вручную на уровне текста и звука.DeepSinger, по словам авторов разработки, преодолевает эти проблемы. Нейросеть работает в несколько этапов. Сначала она сканирует популярные песни в интернете. Затем разделяет вокальные и инструментальные партии с помощью инструмента Spleeter и делит вокал на фонемы. Для извлечения фонем исследователи разработали модель выравнивания текста и музыки. Она позволяет автоматически извлекать каждую единицу звука в песне. После этого при помощи технологии Microsoft FastSpeech алгоритм формирует собственную «модель пения».Как утверждают исследователи, у DeepSinger есть несколько преимуществ перед другими нейросетями, синтезирующими певческий голос.«Насколько нам известно, это первая подобная система, которая напрямую добывает данные для обучения с музыкальных сайтов и которая способна синтезировать пение на разных языках», — указывают авторы проекта в статье на Arxiv.org.В ходе экспериментов DeepSinger просканировал десятки тысяч песен из Интернета на китайском, кантонском и английском языках. Исследователи сообщают, что DeepSinger может синтезировать голос высокого качества с точки зрения как точности звучания, так и «естественности голоса».
===========
Источник:
habr.com
===========
Похожие новости:
- [Python, Алгоритмы, Машинное обучение, Обработка изображений] Код аудита: поиск дублей, face detection и аномальные изображения
- [Облачные вычисления, История IT, Исследования и прогнозы в IT] Бархатная перчатка Microsoft
- [Алгоритмы, Анализ и проектирование систем, Мозг] Что такое алгоритм?_?? Часть π «Копирование иерархии памяти»
- [Искусственный интеллект, Машинное обучение, Тестирование мобильных приложений] Segezha Group завершила тестирование мобильного приложения Smart Timber по измерению плотного объема круглого леса
- [Искусственный интеллект, Машинное обучение] Deep Learning: как это работает? Часть 3 — архитектуры CNN
- [PHP, Алгоритмы, Информационная безопасность, Криптография] Разработка собственного алгоритма симметричного шифрования на Php
- [Звук, Мозг] Мыши, мозг, звуковой VR и шумоподавление
- [История IT] Билл Гейтс. Срыв покровов
- [DevOps, Python, Анализ и проектирование систем, Искусственный интеллект, Машинное обучение] Общий обзор архитектуры сервиса для оценки внешности на основе нейронных сетей
- [Искусственный интеллект, Разработка под AR и VR, Разработка робототехники, Робототехника] Модель МТИ помогает роботам осознавать окружение подобно людям
Теги для поиска: #_zvuk (Звук), #_iskusstvennyj_intellekt (Искусственный интеллект), #_algoritmy (Алгоритмы), #_nejroseti (нейросети), #_deepsinger, #_iskusstvennyj_intellekt (искусственный интеллект), #_microsoft, #_zvuk (
Звук
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_algoritmy (
Алгоритмы
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:02
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Исследователи из Чжэцзянского университета и компании Microsoft разработали нейросеть DeepSinger, которая может генерировать голос, поющий на нескольких языках. Нейросеть обучается, захватывая голос исполнителей из различных песен. Как объясняют исследователи, поющие голоса имеют более сложные паттерны и ритмы, чем обычные. Кроме того, как указывает VentureBeat, существует не так много общедоступных наборов данных по обучению пению. Песни, которые используются в процессе обучения, должны анализироваться вручную на уровне текста и звука.DeepSinger, по словам авторов разработки, преодолевает эти проблемы. Нейросеть работает в несколько этапов. Сначала она сканирует популярные песни в интернете. Затем разделяет вокальные и инструментальные партии с помощью инструмента Spleeter и делит вокал на фонемы. Для извлечения фонем исследователи разработали модель выравнивания текста и музыки. Она позволяет автоматически извлекать каждую единицу звука в песне. После этого при помощи технологии Microsoft FastSpeech алгоритм формирует собственную «модель пения».Как утверждают исследователи, у DeepSinger есть несколько преимуществ перед другими нейросетями, синтезирующими певческий голос.«Насколько нам известно, это первая подобная система, которая напрямую добывает данные для обучения с музыкальных сайтов и которая способна синтезировать пение на разных языках», — указывают авторы проекта в статье на Arxiv.org.В ходе экспериментов DeepSinger просканировал десятки тысяч песен из Интернета на китайском, кантонском и английском языках. Исследователи сообщают, что DeepSinger может синтезировать голос высокого качества с точки зрения как точности звучания, так и «естественности голоса». =========== Источник: habr.com =========== Похожие новости:
Звук ), #_iskusstvennyj_intellekt ( Искусственный интеллект ), #_algoritmy ( Алгоритмы ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:02
Часовой пояс: UTC + 5