[Алгоритмы, Машинное обучение, Изучение языков] В МТИ нейросеть научилась расшифровывать забытые языки
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
В Массачусетском технологическом институте разработали нейросеть, которая поможет лингвистам расшифровать давно забытые языки.
В мире насчитываются десятки мертвых языков, о лексике, грамматике и синтаксисе которых нет информации. На таких языках сохранилось совсем немного текстов, и обычным алгоритмам машинного перевода, к примеру, тем, которые использует Google Translate, этой информации недостаточно. У некоторых из них даже отсутствуют привычные разделители, такие как пробелы и знаки препинания.
Однако исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) продемонстрировали систему, которая может автоматически расшифровывать утерянный язык, не требуя для этого глубоких знаний о нем самом и о его связи с другими языками. Более того, система может сама определять отношения между языками. Так, она подтвердила недавние исследования, предполагающие, что иберийский язык на самом деле не связан с баскским.
Работа системы строится на базовых принципах лингвистики. К примеру, специалисты, которые изучали древние языки, делали вывод, что буква «p» в словах со временем может поменяться на «b». Алгоритм дешифрования учится встраивать звуки языка в многомерное пространство, где различия в произношении отражены как расстояние между соответствующими векторами. Возникают шаблоны изменения языка. Модель может сегментировать слова на древнем языке и сопоставлять их с аналогами на современном, родственном ему.
Алгоритм позволяет оценить близость между двумя языками; фактически, при тестировании на известных языках он может даже точно определять языковые семьи. Команда применила свой алгоритм к иберийскому языку с учетом возможной родственности с баскским, а также с менее вероятными кандидатами из романских, германских, тюркских и уральских семей. Хотя баскский и латынь были ближе к иберийскому, чем другие языки, они оказались слишком разными, чтобы считаться родственными.
Подход с расшифровкой на основе родственных слов предполагается расширить. Он будет включать определение семантического значения слов. К примеру, в тексте можно идентифицировать все ссылки на людей или места, а затем изучить их в свете известных исторических свидетельств, чтобы распознать, какое значение имело то или иное отмеченное слово. Подход может применяться без каких-либо обучающих данных на исследуемом древнем языке.
===========
Источник:
habr.com
===========
Похожие новости:
- [C++, Алгоритмы, Программирование, Процессоры, Разработка веб-сайтов] Исключительно быстрая валидация UTF-8 (перевод)
- [Изучение языков, Локализация продуктов] Final Fantasy VII, или когда английский перевод игры — это косяк на косяке
- [Алгоритмы, Звук] Погружение в алгебру глубоких басов: прекрасные звуки музыкального программирования (перевод)
- [Машинное обучение, Искусственный интеллект, Изучение языков] В Facebook AI продемонстрировали прямой машинный перевод с одного языка на другой
- [Python, Машинное обучение, Искусственный интеллект] Головоломка для ИИ
- [PostgreSQL, SQL, Алгоритмы, Ненормальное программирование] SQL HowTo: обрабатываем дерево — упорядочиваем иерархию с рекурсией и без
- [Python, Алгоритмы, Визуализация данных, Графический дизайн, Дизайн] Песочный алфавит при помощи генеративных алгоритмов (перевод)
- [IT-компании, Машинное обучение, Программирование] Microsoft рассказала, как ИИ поможет инвалидам
- [Обработка изображений, Хакатоны, Машинное обучение, Искусственный интеллект] Быстрый старт в видеоаналитику: Опыт использования OpenVINO Toolkit в хакатонах
- [Изучение языков] 10 фраз на английском, которые помогут сойти за американца
Теги для поиска: #_algoritmy (Алгоритмы), #_mashinnoe_obuchenie (Машинное обучение), #_izuchenie_jazykov (Изучение языков), #_mti (мти), #_nejroseti (нейросети), #_mashinnoe_obuchenie (машинное обучение), #_jazyki (языки), #_lingvistika (лингвистика), #_algoritmy (
Алгоритмы
), #_mashinnoe_obuchenie (
Машинное обучение
), #_izuchenie_jazykov (
Изучение языков
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:48
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
В Массачусетском технологическом институте разработали нейросеть, которая поможет лингвистам расшифровать давно забытые языки. В мире насчитываются десятки мертвых языков, о лексике, грамматике и синтаксисе которых нет информации. На таких языках сохранилось совсем немного текстов, и обычным алгоритмам машинного перевода, к примеру, тем, которые использует Google Translate, этой информации недостаточно. У некоторых из них даже отсутствуют привычные разделители, такие как пробелы и знаки препинания. Однако исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) продемонстрировали систему, которая может автоматически расшифровывать утерянный язык, не требуя для этого глубоких знаний о нем самом и о его связи с другими языками. Более того, система может сама определять отношения между языками. Так, она подтвердила недавние исследования, предполагающие, что иберийский язык на самом деле не связан с баскским. Работа системы строится на базовых принципах лингвистики. К примеру, специалисты, которые изучали древние языки, делали вывод, что буква «p» в словах со временем может поменяться на «b». Алгоритм дешифрования учится встраивать звуки языка в многомерное пространство, где различия в произношении отражены как расстояние между соответствующими векторами. Возникают шаблоны изменения языка. Модель может сегментировать слова на древнем языке и сопоставлять их с аналогами на современном, родственном ему. Алгоритм позволяет оценить близость между двумя языками; фактически, при тестировании на известных языках он может даже точно определять языковые семьи. Команда применила свой алгоритм к иберийскому языку с учетом возможной родственности с баскским, а также с менее вероятными кандидатами из романских, германских, тюркских и уральских семей. Хотя баскский и латынь были ближе к иберийскому, чем другие языки, они оказались слишком разными, чтобы считаться родственными. Подход с расшифровкой на основе родственных слов предполагается расширить. Он будет включать определение семантического значения слов. К примеру, в тексте можно идентифицировать все ссылки на людей или места, а затем изучить их в свете известных исторических свидетельств, чтобы распознать, какое значение имело то или иное отмеченное слово. Подход может применяться без каких-либо обучающих данных на исследуемом древнем языке. =========== Источник: habr.com =========== Похожие новости:
Алгоритмы ), #_mashinnoe_obuchenie ( Машинное обучение ), #_izuchenie_jazykov ( Изучение языков ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:48
Часовой пояс: UTC + 5