[Голосовые интерфейсы, Звук, Машинное обучение] Mozilla опубликовала крупнейший датасет разговорной речи с транскрипцией: 7226 часов, 54 языка
Автор
Сообщение
news_bot ®
Стаж: 6 лет 11 месяцев
Сообщений: 27286
Полтора года назад Mozilla порадовала сообщество по распознаванию речи и машинному обучению, выложив в открытый доступ крупнейший в мире набор данных Common Voice. Он включал в себя почти 1400 часов разговорной речи в маленьких фрагментах, на 18-ти языках, от более 42 тыс. пользователей. Каждый фрагмент речи сопровождался текстовой транскрипцией, то есть это готовый набор размеченных данных для машинного обучения.
Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки.
Общий размер базы вырос до 7226 часов, из которых 5591 час уже подтверждены как валидные. Всего в наборе данных более 5,5 миллиона звуковых клипов. Средняя продолжительность клипа 4,7 секунды.
С обновлением набора данных выросло количество языков, представленных более 5000 спикерами: теперь это английский, немецкий, французский, итальянский и испанский. Для них можно сказать, что вариативность достаточно высока для построения действительно универсальной системы распознавания и синтеза речи. Демографические характеристики спикеров представлены на иллюстрации слева.
Количество языков с более чем 500 часами записи достигло семи: английский, немецкий, французский, каталонский, испанский, кабильский и руанда (киньяруанда).
В идеале Mozilla хочет, чтобы на платформе Common Voice были представлены все языки, существующие в разговорной речи на земном шаре. Теоретически, если для каждого языка будут представлены все фонемы и все слова с транскрипцией, то можно разработать идеальный универсальный переводчик с распознаванием и синтезом речи на любом языке мира.
Mozilla уже начала работать в данном направлении. Сейчас опубликован первый целевой сегмент со словами, которые обозначают цифры от нуля до девяти, а также словами «да», «нет», «эй» и «файрфокс». Данный целевой сегмент на 18-ти языках включает в себя 120 часов записи, в том числе 64 валидированных часа. Он создан усилиями более 11 тыс. контрибуторов со всего мира.
Mozilla пишет, что этот целевой сегмент поможет проверить точность их опенсорнсного движка для распознавания речи Deep Speech на разных языках.
===========
Источник:
habr.com
===========
Похожие новости:
- [Звук, Старое железо] Древности: домашний минидиск и баллада о гробиках
- [DIY или Сделай сам, Natural Language Processing, Будущее здесь, Голосовые интерфейсы, Информационная безопасность] Голосовой помощник для совершения операций на бирже
- [Искусственный интеллект, Машинное обучение, Обработка изображений] MIT убрал датасет Tiny Images из-за расистских и оскорбительных терминов
- [Видеотехника, Звук, Сетевые технологии] Музейный комплекс «Зоя»: танк под обстрелом проекторов и другие технические нюансы
- Выпуск Firefox 78.0.1 и обновление голосовых данных Mozilla Common Voice
- [*nix, C, Open source, Звук, Разработка под Linux] Изучаем VoIP-движок Mediastreamer2. Часть 13, заключительная
- [Биотехнологии, Мозг, Научно-популярное, Читальный зал] Предсказание будущего: нейрокомпьютерная модель распознавания речи
- [Звук, Научно-популярное, Производство и разработка электроники, Физика] Ученые создали Lamphone: используя фотодиод и телескоп исследователи превратили лампочки в “жучки” для прослушки
- [Машинное обучение, Обработка изображений, Работа с видео] Нейросеть Disney Research реалистично заменяет лица на видео
- [Python, Машинное обучение, Обработка изображений, Открытые данные] Ресурсы для получения датасетов изображений, о которых вы могли не знать
Теги для поиска: #_golosovye_interfejsy (Голосовые интерфейсы), #_zvuk (Звук), #_mashinnoe_obuchenie (Машинное обучение), #_mozilla, #_deep_speech, #_raspoznavanie_rechi (распознавание речи), #_golosovye_interfejsy (
Голосовые интерфейсы
), #_zvuk (
Звук
), #_mashinnoe_obuchenie (
Машинное обучение
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 01-Фев 03:47
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 11 месяцев |
|
Полтора года назад Mozilla порадовала сообщество по распознаванию речи и машинному обучению, выложив в открытый доступ крупнейший в мире набор данных Common Voice. Он включал в себя почти 1400 часов разговорной речи в маленьких фрагментах, на 18-ти языках, от более 42 тыс. пользователей. Каждый фрагмент речи сопровождался текстовой транскрипцией, то есть это готовый набор размеченных данных для машинного обучения. Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки. Общий размер базы вырос до 7226 часов, из которых 5591 час уже подтверждены как валидные. Всего в наборе данных более 5,5 миллиона звуковых клипов. Средняя продолжительность клипа 4,7 секунды. С обновлением набора данных выросло количество языков, представленных более 5000 спикерами: теперь это английский, немецкий, французский, итальянский и испанский. Для них можно сказать, что вариативность достаточно высока для построения действительно универсальной системы распознавания и синтеза речи. Демографические характеристики спикеров представлены на иллюстрации слева. Количество языков с более чем 500 часами записи достигло семи: английский, немецкий, французский, каталонский, испанский, кабильский и руанда (киньяруанда). В идеале Mozilla хочет, чтобы на платформе Common Voice были представлены все языки, существующие в разговорной речи на земном шаре. Теоретически, если для каждого языка будут представлены все фонемы и все слова с транскрипцией, то можно разработать идеальный универсальный переводчик с распознаванием и синтезом речи на любом языке мира. Mozilla уже начала работать в данном направлении. Сейчас опубликован первый целевой сегмент со словами, которые обозначают цифры от нуля до девяти, а также словами «да», «нет», «эй» и «файрфокс». Данный целевой сегмент на 18-ти языках включает в себя 120 часов записи, в том числе 64 валидированных часа. Он создан усилиями более 11 тыс. контрибуторов со всего мира. Mozilla пишет, что этот целевой сегмент поможет проверить точность их опенсорнсного движка для распознавания речи Deep Speech на разных языках. =========== Источник: habr.com =========== Похожие новости:
Голосовые интерфейсы ), #_zvuk ( Звук ), #_mashinnoe_obuchenie ( Машинное обучение ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 01-Фев 03:47
Часовой пояс: UTC + 5