[Open source, Машинное обучение, Искусственный интеллект, Голосовые интерфейсы] Mozilla сворачивает разработку DeepSpeech и объявляет о программе грантов
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
В 2017 году команда машинного обучения Mozilla Research запустила инициативу DeepSpeech, направленную на создание открытого источника модели автоматического распознавания речи. Но в ближайшие месяцы Mozilla планирует прекратить разработку и обслуживание модели, поскольку переходит к роли консультанта и запускает программу грантов для финансирования ряда инициатив, демонстрирующих способности приложений для DeepSpeech.
В течение четырех лет вышло несколько версий модели, способных транскрибировать лекции, телефонные разговоры, телевизионные программы, радиошоу и другие прямые трансляции с «человеческой точностью». Модель DeepSpeech представляет собой сквозную обучаемую архитектуру на уровне символов, которая может транскрибировать аудио на различных языках. Одной из основных целей Mozilla было добиться уровня ошибок при транскрипции слов ниже 10%, и новейшие версии предварительно обученной англоязычной модели достигают этой цели, в среднем демонстрируя около 7,5% ошибок. Теперь Mozilla планирует передать проект «людям и организациям», заинтересованным в продолжении «исследований на основе вариантов его использования». Компания заявляет, что оптимизировала процессы непрерывной интеграции для запуска DeepSpeech с минимальными зависимостями. Она опубликует набор инструментов, который поможет любым другим заинтересованным сторонам использовать модель для создания голосовых решений. Последняя модель DeepSpeech содержит десятки миллионов параметров. Команда Mozilla Research начала обучать ее на ПК с четырьмя графическими процессорами Titan X Pascal, но в конечном итоге перенесла работу на два сервера с 8 Titan XP на каждом. В первые дни проекта обучение высокопроизводительной модели занимало около недели. В последующие годы Mozilla работала над уменьшением модели DeepSpeech, одновременно повышая ее производительность. Англоязычная модель сократилась с 188 МБ до 47 МБ, а потребление памяти упало в 22 раза. В декабре 2019 года команде удалось заставить DeepSpeech работать «быстрее, чем в реальном времени» на одном ядре Raspberry Pi 4. Mozilla первоначально обучила DeepSpeech с использованием свободно доступных наборов данных, таких как TED-LIUM и LibriSpeech, а также платных корпусов, таких как Fisher и Switchboard, но этого оказалось недостаточно. Команда обратилась к общественным теле- и радиостанциям, языковым факультетам университетов и другим организациям, которые, по их мнению, могли пометить речевые данные, чтобы поделиться ими. Благодаря этим усилиям они смогли более чем вдвое увеличить объем обучающих данных для англоязычной модели DeepSpeech. Вдохновленная этими усилиями по сбору данных, исследовательская группа Mozilla в сотрудничестве с группой открытых инноваций запустила проект Common Voice, цель которого заключалась в сборе и проверке речевых данных. Common Voice включает не только речевые записи, но и из добровольно предоставленные метаданные, такие как возраст, пол и акцент говорящего. Сегодня Common Voice является одним из крупнейших в мире мультиязычных корпусов, являющихся общественным достоянием, с более чем 9 тысячами часов голосовых данных на 60 различных языках, включая такие редкие языки, как валлийский и киньяруанда. Он включает данные более 164 тысяч человек. Чтобы поддержать проект, Nvidia объявила, что инвестирует $1,5 млн. Common Voice теперь будет работать под эгидой Mozilla Foundation в рамках инициатив, направленных на повышение надежности ИИ. Новая грантовая программа Mozilla будет предоставлять приоритет проектам, которые вносят вклад в основную технологию, а также демонстрируют потенциал для «расширения возможностей и обогащения» смежных областей. Более подробная информация будет объявлена в мае вместе с руководством по использованию кодовой базы DeepSpeech. Исполнительный директор Mozilla Foundation Марк Сурман пояснил, что в настоящее время речевые движки не работают для огромного количества языков мира и акцентов и поэтому непригодны для пользователей. По его словам, Mozilla решила сделать голосовые технологии инклюзивными и доступными. Данные Common Voice могут использоваться для поддержки фреймворков и для обеспечения массового доступа людей к голосовым технологиям. В 2020 году сообщалось, что из-за решения Mozilla уволить 250 человек проект DeepSpeech может прекратить существование. В феврале Mozilla объявила о закрытии проектов голосового ввода и интеллектуального управления для браузера Firefox Voice и Voice Fill. Исходный код проектов будет доступен общественности под лицензией GPL.
===========
Источник:
habr.com
===========
Похожие новости:
- [Обработка изображений, Машинное обучение, Компьютерное железо, DIY или Сделай сам] Edge платы для домашнего Computer Vision
- [Производство и разработка электроники, Компьютерное железо, Искусственный интеллект, Суперкомпьютеры, IT-компании] Nvidia анонсировала платформу для суперкомпьютеров, десктопный процессор на базе ARM и фреймворк для кибербезопасности
- NVIDIA инвестирует 1.5 млн долларов в проект Mozilla Common Voice
- [Big Data, Машинное обучение, Научно-популярное, Искусственный интеллект] Главная причина дискриминации в ML
- [Open source, Законодательство в IT, История IT, Биографии гиков, IT-компании] Столлман официально извинился за свое неподобающее поведение. FSF будет его поддерживать далее ради миссии СПО
- [Big Data, Машинное обучение, Карьера в IT-индустрии, Data Engineering] Ничего не понятно, но очень интересно: как начать карьеру в Data Science без профильного образования
- [Бизнес-модели, Облачные сервисы, Искусственный интеллект, Здоровье, IT-компании] Microsoft покупает сервис по распознаванию речи Nuance за $19,7 млрд
- [Обработка изображений, Машинное обучение, Искусственный интеллект, Будущее здесь] Как группа энтузиастов и нейросеть StyleGAN2 сделали выставку современного искусства в Петербурге
- [Open source, *nix] FOSS News №65 – дайджест материалов о свободном и открытом ПО за 5–11 апреля 2021 года
- [Open source, GitHub, FPGA, Производство и разработка электроники] Создана некоммерческая организация Open Source FPGA Foundation (OSFPGA) для продвижения ПЛИС с открытым исходным кодом
Теги для поиска: #_open_source, #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_golosovye_interfejsy (Голосовые интерфейсы), #_mozilla, #_deepspeech, #_mozilla_foundation, #_granty (гранты), #_golosovye_interfejsy (голосовые интерфейсы), #_raspoznavanie_rechi (распознавание речи), #_model (модель), #_mashinnoe_obuchenie (машинное обучение), #_open_source, #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_golosovye_interfejsy (
Голосовые интерфейсы
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:23
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
В 2017 году команда машинного обучения Mozilla Research запустила инициативу DeepSpeech, направленную на создание открытого источника модели автоматического распознавания речи. Но в ближайшие месяцы Mozilla планирует прекратить разработку и обслуживание модели, поскольку переходит к роли консультанта и запускает программу грантов для финансирования ряда инициатив, демонстрирующих способности приложений для DeepSpeech. В течение четырех лет вышло несколько версий модели, способных транскрибировать лекции, телефонные разговоры, телевизионные программы, радиошоу и другие прямые трансляции с «человеческой точностью». Модель DeepSpeech представляет собой сквозную обучаемую архитектуру на уровне символов, которая может транскрибировать аудио на различных языках. Одной из основных целей Mozilla было добиться уровня ошибок при транскрипции слов ниже 10%, и новейшие версии предварительно обученной англоязычной модели достигают этой цели, в среднем демонстрируя около 7,5% ошибок. Теперь Mozilla планирует передать проект «людям и организациям», заинтересованным в продолжении «исследований на основе вариантов его использования». Компания заявляет, что оптимизировала процессы непрерывной интеграции для запуска DeepSpeech с минимальными зависимостями. Она опубликует набор инструментов, который поможет любым другим заинтересованным сторонам использовать модель для создания голосовых решений. Последняя модель DeepSpeech содержит десятки миллионов параметров. Команда Mozilla Research начала обучать ее на ПК с четырьмя графическими процессорами Titan X Pascal, но в конечном итоге перенесла работу на два сервера с 8 Titan XP на каждом. В первые дни проекта обучение высокопроизводительной модели занимало около недели. В последующие годы Mozilla работала над уменьшением модели DeepSpeech, одновременно повышая ее производительность. Англоязычная модель сократилась с 188 МБ до 47 МБ, а потребление памяти упало в 22 раза. В декабре 2019 года команде удалось заставить DeepSpeech работать «быстрее, чем в реальном времени» на одном ядре Raspberry Pi 4. Mozilla первоначально обучила DeepSpeech с использованием свободно доступных наборов данных, таких как TED-LIUM и LibriSpeech, а также платных корпусов, таких как Fisher и Switchboard, но этого оказалось недостаточно. Команда обратилась к общественным теле- и радиостанциям, языковым факультетам университетов и другим организациям, которые, по их мнению, могли пометить речевые данные, чтобы поделиться ими. Благодаря этим усилиям они смогли более чем вдвое увеличить объем обучающих данных для англоязычной модели DeepSpeech. Вдохновленная этими усилиями по сбору данных, исследовательская группа Mozilla в сотрудничестве с группой открытых инноваций запустила проект Common Voice, цель которого заключалась в сборе и проверке речевых данных. Common Voice включает не только речевые записи, но и из добровольно предоставленные метаданные, такие как возраст, пол и акцент говорящего. Сегодня Common Voice является одним из крупнейших в мире мультиязычных корпусов, являющихся общественным достоянием, с более чем 9 тысячами часов голосовых данных на 60 различных языках, включая такие редкие языки, как валлийский и киньяруанда. Он включает данные более 164 тысяч человек. Чтобы поддержать проект, Nvidia объявила, что инвестирует $1,5 млн. Common Voice теперь будет работать под эгидой Mozilla Foundation в рамках инициатив, направленных на повышение надежности ИИ. Новая грантовая программа Mozilla будет предоставлять приоритет проектам, которые вносят вклад в основную технологию, а также демонстрируют потенциал для «расширения возможностей и обогащения» смежных областей. Более подробная информация будет объявлена в мае вместе с руководством по использованию кодовой базы DeepSpeech. Исполнительный директор Mozilla Foundation Марк Сурман пояснил, что в настоящее время речевые движки не работают для огромного количества языков мира и акцентов и поэтому непригодны для пользователей. По его словам, Mozilla решила сделать голосовые технологии инклюзивными и доступными. Данные Common Voice могут использоваться для поддержки фреймворков и для обеспечения массового доступа людей к голосовым технологиям. В 2020 году сообщалось, что из-за решения Mozilla уволить 250 человек проект DeepSpeech может прекратить существование. В феврале Mozilla объявила о закрытии проектов голосового ввода и интеллектуального управления для браузера Firefox Voice и Voice Fill. Исходный код проектов будет доступен общественности под лицензией GPL. =========== Источник: habr.com =========== Похожие новости:
Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ), #_golosovye_interfejsy ( Голосовые интерфейсы ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:23
Часовой пояс: UTC + 5