[Машинное обучение, Искусственный интеллект, Звук, Будущее здесь] Hey, Google: умные устройства будут активироваться без команд
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Photo by Cristian Cristian on Unsplash
В ближайшем будущем активировать голосовую колонку Amazon Echo или Nest Audio, поиск в Google или Siri на устройствах от Apple можно будет без приветствия вроде «Hello, Google!» При помощи ИИ ученые из США разработали алгоритм, благодаря которому умные голосовые помощники понимают, что человек обращается к ним.
В обычной беседе люди обозначают адресата сообщения, просто посмотрев на него. А вот большинство голосовых устройств заточены под активацию ключевыми фразами, которые в реальном общении никто не произносит. Понимание голосовыми помощниками невербальных сигналов упростило бы коммуникацию и сделало более интуитивной. Особенно, если таких устройств в доме несколько.
Ученые из Университета Карнеги — Меллона отмечают, что разработанный алгоритм определяет направление речи (direction of voice, DoV) с помощью микрофона.
DoV отличается от выявления направления, откуда исходит голос (direction of arrival, DoA).
По мнению исследователей, применение DoV делает возможным адресные команды, что напоминает зрительный контакт собеседников при начале разговора. Однако камеры устройств при этом не задействованы. Таким образом, выходит естественное взаимодействие с разными типами устройств без путаницыи.
Помимо прочего, технология уменьшит количество случайных активаций голосовых помощников, которые все время находятся в режиме ожидания.
В основе новой аудиотехнологии — особенности распространения звука речи. Если голос направлен в микрофон, то в нем преобладают низкие и высокие частоты. Если голос отражен, то есть изначально направлен на другое устройство, то будет заметно снижение высоких частот по сравнению с низкими.
Алгоритм также анализирует распространение звука в первые 10 миллисекунд. Здесь возможны два сценария:
Пользователь повернут к микрофону. Сигнал, который первым придет к микрофону, будет четким по сравнению с возможными другими, отраженными от иных устройств в доме.
Пользователь отвернут от микрофона. Все колебания звука будут дублироваться и искажаться.
Алгоритм замеряет форму сигнала, вычисляет пик его интенсивности, сравнивает со средним значением и определяет, был направлен голос к микрофону или нет.
Извините, данный ресурс не поддреживается. :( Измеряя распространение голоса, ученые смогли с точностью до 93,1% определить, находится ли спикер перед конкретным микрофоном или нет. Они отметили, что на сегодня это лучший подобный результат и важный шаг на пути к внедрению решения в существующие устройства. При попытке определения одного из восьми углов, под которым человек смотрит на девайс, достигнута точность в 65,4%. Этого пока недостаточно для приложения, суть которого в активном взаимодействии с пользователями.
Для сбора информации инженеры использовали Python, сигналы обрабатывались на основе алгоритма-классификатора Extra-Trees.
Собранные во время разработки данные и алгоритм открыты в GitHub. Их можно применить при создании собственного голосового помощника.
===========
Источник:
habr.com
===========
Похожие новости:
- [Искусственный интеллект, Будущее здесь] БЛА/БПЛА: разрушение восторгов о применении ИИ в БЛА на практике
- [Хакатоны, Машинное обучение, Искусственный интеллект] 4-й конкурс «Тест Тьюринга» стартует в ноябре
- [Программирование, Машинное обучение] Машинное обучение с Dask (перевод)
- [Машинное обучение, Искусственный интеллект, Natural Language Processing] Все началось с Dream — новый ИИ-помощник от проекта DeepPavlov
- [Научно-популярное, Энергия и элементы питания, Физика, Будущее здесь] Емко и холодно: в Великобритании построят крупнейшую в мире криобатарею
- [Космонавтика, Будущее здесь] НАСА сертифицировало ракету Falcon 9 и корабль Crew Dragon от SpaceX для выполнения регулярных космических полетов
- [Киберпанк, Робототехника, Искусственный интеллект, Будущее здесь, Инженерные системы] Китай практикует запуск “роя” дронов-смертников, начиненных взрывчаткой
- [Python, Программирование, Машинное обучение] Быстрый градиентный бустинг с CatBoost (перевод)
- [IT-инфраструктура, Сетевые технологии, Сетевое оборудование] Alphabet запустила в Кении беспроводной интернет при помощи «оптоволокна без волокна»
- [Гаджеты, Носимая электроника, Будущее здесь] Умная одежда сегодня: обнимет, подскажет, обогреет
Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_zvuk (Звук), #_buduschee_zdes (Будущее здесь), #_golosovye_pomoschniki (голосовые помощники), #_golosovye_assistenty (голосовые ассистенты), #_ii (ИИ), #_mashinnoe_obuchenie (машинное обучение), #_zvuk (звук), #_internet_veschej (интернет вещей), #_iot, #_blog_kompanii_selectel (
Блог компании Selectel
), #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_zvuk (
Звук
), #_buduschee_zdes (
Будущее здесь
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:33
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Photo by Cristian Cristian on Unsplash В ближайшем будущем активировать голосовую колонку Amazon Echo или Nest Audio, поиск в Google или Siri на устройствах от Apple можно будет без приветствия вроде «Hello, Google!» При помощи ИИ ученые из США разработали алгоритм, благодаря которому умные голосовые помощники понимают, что человек обращается к ним. В обычной беседе люди обозначают адресата сообщения, просто посмотрев на него. А вот большинство голосовых устройств заточены под активацию ключевыми фразами, которые в реальном общении никто не произносит. Понимание голосовыми помощниками невербальных сигналов упростило бы коммуникацию и сделало более интуитивной. Особенно, если таких устройств в доме несколько. Ученые из Университета Карнеги — Меллона отмечают, что разработанный алгоритм определяет направление речи (direction of voice, DoV) с помощью микрофона. DoV отличается от выявления направления, откуда исходит голос (direction of arrival, DoA). По мнению исследователей, применение DoV делает возможным адресные команды, что напоминает зрительный контакт собеседников при начале разговора. Однако камеры устройств при этом не задействованы. Таким образом, выходит естественное взаимодействие с разными типами устройств без путаницыи. Помимо прочего, технология уменьшит количество случайных активаций голосовых помощников, которые все время находятся в режиме ожидания. В основе новой аудиотехнологии — особенности распространения звука речи. Если голос направлен в микрофон, то в нем преобладают низкие и высокие частоты. Если голос отражен, то есть изначально направлен на другое устройство, то будет заметно снижение высоких частот по сравнению с низкими. Алгоритм также анализирует распространение звука в первые 10 миллисекунд. Здесь возможны два сценария: Пользователь повернут к микрофону. Сигнал, который первым придет к микрофону, будет четким по сравнению с возможными другими, отраженными от иных устройств в доме. Пользователь отвернут от микрофона. Все колебания звука будут дублироваться и искажаться. Алгоритм замеряет форму сигнала, вычисляет пик его интенсивности, сравнивает со средним значением и определяет, был направлен голос к микрофону или нет. Извините, данный ресурс не поддреживается. :( Измеряя распространение голоса, ученые смогли с точностью до 93,1% определить, находится ли спикер перед конкретным микрофоном или нет. Они отметили, что на сегодня это лучший подобный результат и важный шаг на пути к внедрению решения в существующие устройства. При попытке определения одного из восьми углов, под которым человек смотрит на девайс, достигнута точность в 65,4%. Этого пока недостаточно для приложения, суть которого в активном взаимодействии с пользователями. Для сбора информации инженеры использовали Python, сигналы обрабатывались на основе алгоритма-классификатора Extra-Trees. Собранные во время разработки данные и алгоритм открыты в GitHub. Их можно применить при создании собственного голосового помощника. =========== Источник: habr.com =========== Похожие новости:
Блог компании Selectel ), #_mashinnoe_obuchenie ( Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ), #_zvuk ( Звук ), #_buduschee_zdes ( Будущее здесь ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:33
Часовой пояс: UTC + 5