Google опубликовал аудиокодек Lyra для передачи речи при плохом качестве связи
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Компания Google представила новый аудиокодек Lyra, оптимизированный для достижения максимального качества передачи речи даже при использовании очень медленных каналов связи.
Код реализации Lyra написан на C++ и открыт под лицензией Apache 2.0, но в числе необходимых для работы зависимостей присутствует проприетарный модуль ядра Linux, открыть код которого не представляется возможным. Указанный модуль используется для математических вычислений и связывается через библиотеку libsparse_inference.so. Отмечается, что проприетарный модуль является временным - в дальнейшем Google обещает разработать открытую замену и обеспечить поддержку платформ, отличных от Linux.
По качеству передаваемых голосовых данных на низких скоростях Lyra существенно превосходит традиционные кодеки, в которых используются методы цифровой обработки сигналов. Для достижения высокого качества передачи голоса в условиях ограниченного объёма передаваемой информации, помимо обычных методов сжатия звука и преобразования сигналов, в Lyra применяется речевая модель на базе системы машинного обучения, позволяющая воссоздать недостающую информацию на основе типовых характеристик речи. Задействованная для генерации звука модель обучена с использованием нескольких тысячах часов с записями голосов на более чем 70 языках.
Кодек включает в себя кодировщик и декодировщик. Алгоритм работы кодировщика сводится к извлечению параметров голосовых данных каждые 40 миллисекунд, их сжатию и передаче получателю по сети. Для передачи данных достаточно канала связи со скоростью 3 килобита в секунду. Извлекаемые звуковые параметры включают в себя логарифмические мел-спектрограммы, учитывающие характеристики энергии речи в различных частотных диапазонах и подготовленные с учётом модели человеческого слухового восприятия.
В декодировщике используется генеративная модель, которая на основе переданных звуковых параметров воссоздаёт сигнал с речью. Для снижения сложности вычислений применена лёгкая модель на основе рекурентной нейронной сети, представляющей собой вариант модели синтеза речи WaveRNN, в котором используется более низкая частота выборок, но генерируется параллельно сразу несколько сигналов в разном диапазоне частот. Полученные сигналы затем накладываются для получения единого выходного сигнала, соответствующего заданной частоте дискретизации.
Для ускорения также применены специализированные процессорные инструкции, доступные в 64-разрядных процессорах ARM. В итоге, несмотря на применение машинного обучения, кодек Lyra может применяться для кодирования и декодирования речи в реальном режиме времени на смартфонах среднего ценового диапазона, демонстрируя задержку передачи сигнала на уровне 90 миллисекунд.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://opensource.googleblog....)
- OpenNews: Доступен аудиокодек Opus 1.3
- OpenNews: Обновление свободного звукового кодека FLAC 1.3.2
- OpenNews: Google передаёт систему объёмного звука Resonance Audio сообществу
- OpenNews: Публикация RFC ознаменовала первый стабильный релиз свободного аудиокодека Opus
- OpenNews: Google опубликовал данные и модель машинного обучения для разделения звуков
Похожие новости:
- [Разработка веб-сайтов, Open source, Управление разработкой, Софт] Бесплатные сервисы для разработчиков — огромный список
- Google одержал победу в разбирательстве с Oracle, связанном с Java и Android
- [Венчурные инвестиции, Развитие стартапа, Финансы в IT, IT-компании] Новости IT и инвестиций: как Google изменит рекламу, зачем на самом деле нужен AR?
- [Гаджеты, Смартфоны, Процессоры] Google выпустит Pixel 6 с собственным чипом Whitechapel
- [Биографии гиков, Транспорт, IT-компании] Руководителем проекта Google по разработке беспилотных автомобилей стал выходец из России
- [Информационная безопасность, Google Chrome, Браузеры, Разработка под Linux] DNS-over-HTTPS заработает в Google Chrome для Linux
- [Законодательство в IT, Социальные сети и сообщества, IT-компании] Карты, деньги, две соцсети: как IT-гиганты захватили интернет и пару вещей в придачу
- [Google Chrome, Контекстная реклама] Google начала тестировать в Chrome технологию Federated Learning of Cohorts — альтернативу cookies
- [Информационная безопасность, Разработка под iOS, Разработка под Android, Исследования и прогнозы в IT] Исследование: Android отправляет в Google в 20 раз больше данных, чем iOS — в Apple
- [JavaScript, Google Chrome, HTML, Расширения для браузеров] Расширение для Google Chrome: управляем скиллами друзей в LinkedIn
Теги для поиска: #_codec, #_lyra, #_google
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 25-Ноя 21:01
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Компания Google представила новый аудиокодек Lyra, оптимизированный для достижения максимального качества передачи речи даже при использовании очень медленных каналов связи. Код реализации Lyra написан на C++ и открыт под лицензией Apache 2.0, но в числе необходимых для работы зависимостей присутствует проприетарный модуль ядра Linux, открыть код которого не представляется возможным. Указанный модуль используется для математических вычислений и связывается через библиотеку libsparse_inference.so. Отмечается, что проприетарный модуль является временным - в дальнейшем Google обещает разработать открытую замену и обеспечить поддержку платформ, отличных от Linux. По качеству передаваемых голосовых данных на низких скоростях Lyra существенно превосходит традиционные кодеки, в которых используются методы цифровой обработки сигналов. Для достижения высокого качества передачи голоса в условиях ограниченного объёма передаваемой информации, помимо обычных методов сжатия звука и преобразования сигналов, в Lyra применяется речевая модель на базе системы машинного обучения, позволяющая воссоздать недостающую информацию на основе типовых характеристик речи. Задействованная для генерации звука модель обучена с использованием нескольких тысячах часов с записями голосов на более чем 70 языках. Кодек включает в себя кодировщик и декодировщик. Алгоритм работы кодировщика сводится к извлечению параметров голосовых данных каждые 40 миллисекунд, их сжатию и передаче получателю по сети. Для передачи данных достаточно канала связи со скоростью 3 килобита в секунду. Извлекаемые звуковые параметры включают в себя логарифмические мел-спектрограммы, учитывающие характеристики энергии речи в различных частотных диапазонах и подготовленные с учётом модели человеческого слухового восприятия. В декодировщике используется генеративная модель, которая на основе переданных звуковых параметров воссоздаёт сигнал с речью. Для снижения сложности вычислений применена лёгкая модель на основе рекурентной нейронной сети, представляющей собой вариант модели синтеза речи WaveRNN, в котором используется более низкая частота выборок, но генерируется параллельно сразу несколько сигналов в разном диапазоне частот. Полученные сигналы затем накладываются для получения единого выходного сигнала, соответствующего заданной частоте дискретизации. Для ускорения также применены специализированные процессорные инструкции, доступные в 64-разрядных процессорах ARM. В итоге, несмотря на применение машинного обучения, кодек Lyra может применяться для кодирования и декодирования речи в реальном режиме времени на смартфонах среднего ценового диапазона, демонстрируя задержку передачи сигнала на уровне 90 миллисекунд. =========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 25-Ноя 21:01
Часовой пояс: UTC + 5