NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
13-Апр-2021 04:30

Компания NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice. Интерес к системам распознавания речи связан с прогнозом, что в следующие десять лет голосовые технологии станут одним из основных способов взаимодействия людей с различными устройствами, от компьютеров и телефонов, до цифровых ассистентов и киосков для продажи товаров.
Качество работы голосовых систем сильно зависит от объёма и разнообразия голосовых данных, доступных для тренировки моделей машинного обучения. Сегодняшние голосовые технологии в основном сосредоточены на распознании английского языка и не охватывают огромное количество языков, акцентов и моделей речи. Инвестиции помогут ускорить наращивание объёма общедоступных голосовых данных, привлечь к работе больше сообществ и волонтёров, а также расширить число сотрудников, занимающихся проектом в основное рабочее время.
Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.
В настоящее время набор Common Voice включает примеры произношения более 164 тысяч людей. Накоплено около 9 тысяч часов голосовых данных на 60 различных языках. Набор для русского языка охватывает 1412 участников и 111 часов речевого материала, а для украинского языка - 459 участников и 30 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 66 тысяч человек, надиктовавших 1686 часов подтверждённой речи. Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).
По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.
===========
Источник:
OpenNet.RU
===========

Похожие новости: Теги для поиска: #_mozilla, #_voice
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 26-Ноя 00:07
Часовой пояс: UTC + 5