Facebook опубликовал модель для машинного перевода, поддерживающую 200 языков
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Компания Facebook (запрещена в РФ) опубликовала наработки проекта NLLB (No Language Left Behind), нацеленного на создание универсальной модели машинного обучения для прямого перевода текста с одного языка на другой, минуя промежуточный перевод на английский язык. Предложенная модель охватывает более 200 языков, включая редкие языки африканских и австралийских народов. Конечной целью проекта является предоставление средств для общения любых людей, независимо от языка на котором они говорят.
Модель доступна под лицензией Creative Commons BY-NC 4.0, разрешающей копирование, распространение, задействование в своих проектах и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только для некоммерческих целей. Инструментарий для работы с моделями поставляется под лицензией MIT. Для стимулирования разработок с использованием модели NLLB решено выделить 200 тысяч долларов на предоставления грантов исследователям.
Для упрощения создания проектов, использующих предложенную модель, дополнительно открыт код приложений, использовавшихся для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренировки моделей и кодировщики на базе библиотеки LASER3 (Language-Agnostic SEntence Representation). Финальная модель предложена в двух вариантах - полном и сокращённом. Сокращённый вариант требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах.
В отличие от других систем перевода на базе систем машинного обучения, решение от Facebook примечательно тем, что для всех 200 языков предложена одна общая модель, охватывающая все языки и не требующая использования отдельных моделей для каждого языка. Перевод осуществляется напрямую из исходного в целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода дополнительно предложена LID-модель (Language IDentification), позволяющая определить используемый язык. Т.е. система может автоматически распознать на каком языке предоставлена информация и перевести на язык пользователя.
Поддерживается перевод в любом направлении, между любыми из поддерживаемых 200 языков. Для подтверждения качества перевода между любыми языками подготовлен эталонный проверочный набор FLORES-200, который показал, что модель NLLB-200 по уровню качества перевода в среднем на 44% превосходит ранее предлагаемые исследовательские системы на основе машинного обучения при использовании метрик BLEU, сравнивающих машинный перевод с эталонным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство в качестве достигает 70%. Наглядно качество перевода модно оценить на специально подготовленном демонстрационном сайте.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://ai.facebook.com/blog/n...)
- OpenNews: Компания Mozilla опубликовала собственную систему машинного перевода
- OpenNews: Реализация системы машинного обучения для синтеза изображений по текстовому описанию
- OpenNews: Amazon опубликовал набор данных для понимания речи на 51 языке
- OpenNews: Выпуск OpenBot 0.5, платформы для создания роботов на базе смартфона
- OpenNews: DeepMind представил систему машинного обучения для генерации кода по текстовому описанию задачи
Похожие новости:
- В containerd приняты изменения, позволяющие запускать Linux-контейнеры во FreeBSD
- Новая версия почтового сервера Exim 4.96
- GitHub ввёл в строй систему машинного обучения Copilot, генерирующую код
- Facebook представил механизм TMO, позволяющий экономить 20-32% памяти на серверах
- Слияние проектов Thunderbird и K-9 Mail
- Уязвимость в firejail, позволяющая получить root-доступ в системе
- Выпуск дистрибутива Tails 5.1
- Выпуск Kubernetes 1.24, системы управления кластером изолированных контейнеров
- Выпуск дистрибутива Tails 5.0
- Реализация системы машинного обучения для синтеза изображений по текстовому описанию
Теги для поиска: #_facebook, #_ai, #_translate
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 02:50
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Компания Facebook (запрещена в РФ) опубликовала наработки проекта NLLB (No Language Left Behind), нацеленного на создание универсальной модели машинного обучения для прямого перевода текста с одного языка на другой, минуя промежуточный перевод на английский язык. Предложенная модель охватывает более 200 языков, включая редкие языки африканских и австралийских народов. Конечной целью проекта является предоставление средств для общения любых людей, независимо от языка на котором они говорят. Модель доступна под лицензией Creative Commons BY-NC 4.0, разрешающей копирование, распространение, задействование в своих проектах и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только для некоммерческих целей. Инструментарий для работы с моделями поставляется под лицензией MIT. Для стимулирования разработок с использованием модели NLLB решено выделить 200 тысяч долларов на предоставления грантов исследователям. Для упрощения создания проектов, использующих предложенную модель, дополнительно открыт код приложений, использовавшихся для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренировки моделей и кодировщики на базе библиотеки LASER3 (Language-Agnostic SEntence Representation). Финальная модель предложена в двух вариантах - полном и сокращённом. Сокращённый вариант требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах. В отличие от других систем перевода на базе систем машинного обучения, решение от Facebook примечательно тем, что для всех 200 языков предложена одна общая модель, охватывающая все языки и не требующая использования отдельных моделей для каждого языка. Перевод осуществляется напрямую из исходного в целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода дополнительно предложена LID-модель (Language IDentification), позволяющая определить используемый язык. Т.е. система может автоматически распознать на каком языке предоставлена информация и перевести на язык пользователя. Поддерживается перевод в любом направлении, между любыми из поддерживаемых 200 языков. Для подтверждения качества перевода между любыми языками подготовлен эталонный проверочный набор FLORES-200, который показал, что модель NLLB-200 по уровню качества перевода в среднем на 44% превосходит ранее предлагаемые исследовательские системы на основе машинного обучения при использовании метрик BLEU, сравнивающих машинный перевод с эталонным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство в качестве достигает 70%. Наглядно качество перевода модно оценить на специально подготовленном демонстрационном сайте. =========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 02:50
Часовой пояс: UTC + 5