Обновление голосовых данных Mozilla Common Voice 8.0
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% - с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87.
Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка - 6160 участников и 987 часов (было - 3831 участник и 356 часов), для украинского языка - 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов).
Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.
По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.
Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://discourse.mozilla.org/...)
- OpenNews: Обновление голосовых данных Mozilla Common Voice 7.0
- OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
- OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
- OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
- OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
Похожие новости:
- Компания Mozilla опубликовала финансовый отчёт за 2020 год
- Выпуск синтезатора речи RHVoice 1.6.0
- Уязвимость в Mozilla NSS, позволяющая выполнить код при обработке сертификатов
- Mozilla удалила дополнение FVD Speed Dial из-за доступа к поисковым запросам
- Новые модели для распознавания русской речи в библиотеке Vosk
- Выпуск интегрированного набора интернет-приложений SeaMonkey 2.53.10
- Изменение правил каталога дополнений к Firefox
- Mozilla удалила два популярных дополнения, блокирующих загрузку обновлений к Firefox
- Mozilla представила Firefox Suggest и новый интерфейс браузера Firefox Focus
- Опубликованы результаты аудита VPN-клиента Mozilla
Теги для поиска: #_voice, #_mozilla
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 03:16
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% - с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87. Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка - 6160 участников и 987 часов (было - 3831 участник и 356 часов), для украинского языка - 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов). Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3. Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0. =========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 03:16
Часовой пояс: UTC + 5