[Интерфейсы, Usability, Разработка под e-commerce, Локализация продуктов] Экзорцист со светоотражающим звуком на солнечной батарее: что не так с переводами на AliExpress
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Привет. Меня зовут Владимир, я работаю в «AliExpress Россия» специалистом по локализации.AliExpress известен своими странными переводами. Сколько шуток было на эту тему,даже от нас самих. И сторонний наблюдатель восклицает: «Ну сделайте уже нормально!»; продвинутый технарь ухмыляется: «Не могут нормальный Гугл Транслейт прикрутить»; а профессионалы из области машинного перевода наперебой советуют «кастомизированный движок» или MTPE. Все они и правы, и неправы одновременно.В этой статье я расскажу:
- откуда в AliExpress берутся тексты, на какие виды делятся и кто за них отвечает;
- почему переводят не с китайского, а виноват всё равно он;
- что такое Alibaba Translate и чем он лучше Google Translate или «Яндекс.Переводчика»;
- какие стратегии применяются для улучшения переводов и что ещё предстоит сделать.
Но для того чтобы понять сегодняшние проблемы, придется зайти издалека.TL;DRЕсли вам некогда читать, то вот краткое содержание статьи:
- Интерфейсы и маркетинг не переводятся, а пишутся с чистого листа (но не всегда);
- 100 500 миллионов товаров машина переводит с английского на русский;
- Английские описания товаров пишут китайские продавцы по китайским лекалам с кучей ошибок, возможно, пользуясь автопереводчиком.;
- Если переводить «как есть», получится лажа, поэтому учимся убирать лишнее и перестраивать названия;
- А ещё мы работаем над обучением по шаблонам и автоматическим распознаванием.
Историческая справкаЧтобы понять, в чём суть проблемы, нужно определить её истоки. Что такое «алик» и откуда он взялся? Супер-коротко от истоков до наших дней.В 1999 году в Китае появилась площадка Alibaba.com, предназначенная для того, чтобы продавать с китайских заводов за границу оптом. C 2003-го Alibaba развивала маркетплейсTaobao, направленный исключительно на внутренний рынок.В 2010 году из Alibaba.com выделился маркетплейсAliExpress.com (название намекает: Alibaba Express). На нём появились и оптовики, которые решили торговать мелким оптом и в розницу, и розничные продавцы с Taobao, которые теперь могли продавать свои товары за границу. Важный момент: AliExpress — это маркетплейс, где продавцы сами определяют, как выглядит их товар, и самостоятельно создают его описание.В конце 2019 года Alibaba Group и Mail.ru создали совместное предприятие “AliExpress Россия”, и многие процессы разработки и маркетинга локализовались в Москве.Сегодня на AliExpress работает 225 тысяч продавцов (из которых 45 тысяч российских), а активно продающихся товаров — более 140 млн наименований. У каждого товара есть название, параметры и описание, т. е. очень много разного текста.Кто за что отвечает?Далеко не все тексты переводятся автоматически — как по техническим, так и по идеологическим причинам. У разных текстов разные источники происхождения, и за них отвечают принципиально разные команды.ИнтерфейсКнопки, менюшки, подсказки — этим занимаются UX-писатели из команды Content Strategy, как в офисе Alibaba Group в Ханчжоу, так и в московском офисе AliExpress Россия. Эти тексты пишутся вручную. Машинный перевод использовался на ранних этапах локализации сайта, когда просто не было иностранных сотрудников, и он ещё изредка может проскакивать на странице и в приложении. Новые функции либо переводятся с английского, либо пишутся сразу на русском.
На этом скриншоте весь текст относится к интерфейсу — всё во власти AliExpress.МаркетингБаннеры, правила промоакций, игры, почтовая рассылка — в ведении креативной команды в составе Content Strategy. Большая часть русских текстов пишется в российской компании живыми людьми (есть ещё какое-то количество текстов, автоматически генерируемые баннеры и т. п., создаваемых глобальной командой в Ханчжоу для всех стран присутствия AliExpress ).
Дерево категорий и фильтры поискаДостались в наследство отAlibaba.com, претерпели множество итераций по улучшению переводов. Находятся в ведении категорийных менеджеров, но до сих пор проскальзывают артефакты старого машинного перевода.
Здесь AliExpress контролирует текст частично и есть много легаси, тесно связанного с глобальной площадкой.Витрины продавцовИли «Магазины» (навигация внутри магазина, баннеры, прочая информация) — всё это пишет сам продавец так, как ему покажется разумным. В отличие от других маркетплейсов в России, на AliExpress оформлять свой магазин можно в свободной форме и нет добровольно-принудительного для продавцов участия в распродажах со скидками. Инструменты для полноценной локализации у продавца ограничены, поэтому часто можно видеть полностью англоязычную навигацию. Машинный перевод не используется.
В стандартном меню «Товары» есть разделы, которые пишет сам продавец — в силу своих языковых умений.
Информация о товареНазвание товара, варианты комплектации, параметры и текст с подробным описанием — полностью во власти продавца. Он может писать так, как ему кажется правильным. Именно к этому тексту применяется машинный перевод «на лету».
Тут начинается владение продавца: текст на фотографии товара, варианты комплектов, название товара, разделы магазина — всё это продавец волен писать так, как ему кажется правильным.
И наконец, полное раздолье для продавца, включая «Категории магазина» слева. Текст на рыжем фоне вообще корейский, но кого это волнует?
Информация о товареКак вы поняли, больше всего «машинному переводу» подвержены названия и описания товаров. Их много, их пишут китайские продавцы, их нужно показывать на русском. Расскажу, как пишутся эти названия — и почему именно так.Сложности китайскогоПлотность информации в китайском языке очень высокая: язык стремится к двусложным словам, т. е. к двум иероглифам, а условный «корень» слова может выражаться одним символом. Оцените плотность информации в китайской типографии.
Газета «Женьминь Жибао»2021 г. (слева) и 1950 г. (справа). Как видите, плотность информации за 70 лет не сильно изменилась. Сайтыследуют тем же принципам.В китайском нет пробелов. Знаки препинания (точки, запятые) появились в нём только в ХХ веке. Тогда же поменялось направление письма, пять тысяч лет сохранявшееся как «сверху вниз, справа налево» и превратившееся в строгое европейское «слева направо» (в Японии, например, сайты пишут слева направо, а книги, как древние китайцы, справа налево).Структура названияНазвание товара на AliExpress, как правило, очень длинное, хаотичное и похоже на SEO, т. е. продавец добавляет туда всё, что имеет хотя бы косвенное отношение к товару, из принципа «больше напишу — по большему количеству запросов покажусь».Вот как выглядит название типичного товара на Taobao:
Ссылка на оригинал, если интересно.Из чего состоит название на скриншоте?【立省100元 套餐1赠耳机】OPPO A72 5G双模90Hz大内存大电量全面屏学生老人智能拍照全网通手机旗舰正品
- 立省100元 — «Сэкономь 100 юаней»
- 套餐1 — «Комплект № 1»
- 赠耳机 — «Наушники в подарок»
- 5G双模 — «Двухдиапазонный 5G»
- 大内存 — «Большое хранилище (ROM)»
- 大电量 — «Аккумулятор большой ёмкости»
- 全面屏 — «Безрамочный экран»
- 学生老人 — «Для студентов и пенсионеров»
- 智能拍照 — «Умная фотография»
- 全网通 — «Поддержка всех сотовых операторов»
- 旗舰 — «Флагманская модель»
- 正品 — «Оригинальный (не поддельный)»
Из 61 знака в китайском названии получилось около 300 на русском — в пять раз больше оригинала, в два раза больше стандартного твита. И это «просто название»!
И даже эти лаконичные названия не влезают целиком в предусмотренные дизайном две строчки текста.Покупателями в Китае это не воспринимается как информационная загруженность, потому что к ней привыкли и её ожидают увидеть. Исходя из этого проектируются интерфейсы и строятся поисковые алгоритмы.Резюмируя: исторически китайские продавцы склонны к тому, чтобы давать в заголовке максимум информации.А как на AliExpress?Теперь представим, что этот же китайский продавец решил открыть магазин, чтобы продавать телефоны не только внутри Китая, но и за границу.AliExpress не поддерживает названия на китайском. Продавцы обязаны ввести его на английском языке. Если продавец плохо владеет английским, то он открываетпереводчик Baidu (ведь Google в Китаезаблокирован) и получает...
Пример машинного перевода от Baidu — заменителя Google в китайском интернете.И уже такой “английский” текст отправляется в карточку товара, где его ждёт новый машинный перевод.Машинный переводВ AliExpress уже не используют Google Translate. Во-первых, это чужая разработка, которая требует платы и получает очень много данных. Во-вторых, она разработана и натренирована на текстах общей тематики, без специфики e-commerce.Вместо этого используется внутренняя разработка — Alibaba Translate.Damo AcademyВ Alibaba Group есть R&D подразделение под названием DAMO Academy, которое разрабатывает свой движок для машинного перевода. Его используют во множестве дочерних бизнесов —Alibaba.com, AliExpress, в логистическом операторе Cainiao и так далее.В DAMO Academy работают лингвисты, математики и другие специалисты и учёные из связанных отраслей, чтобы делать движок именно для потребностей Alibaba — в первую очередь для сферы e-commerce.Учёные, кстати, довольно серьёзные. Вот их работао машинном обучении для нейролингвистического движка, а здесь — о получении информации для оптимизации переводов поисковых запросов. Осторожно: много формул.
Exploiting Neural Query Translation into Cross Lingual Information RetrievalAlibaba TranslateСпециализация движка для перевода очень важна. Google Translate, доступный широкой публике, не имеет кастомизации в зависимости от сферы применения, и его модель обучена на тех языковых корпусах, до которых разработчики смогли дотянуться.В публичной версии Alibaba Translate,доступной на сайте, можно выбрать одну из моделей, в том числе e-commerce. Давайте сравним результаты.
Условно хороший английский текст с одного веб-сайта e-commerce
Google Translate
Alibaba TranslateКак видите, при адекватном исходном английском тексте результаты Alibaba Translate не хуже Google. Но если вместо хорошего английского текста на входе текст, написанный абы как, получаем привычную абракадабру. Типичный пример концепции garbage in, garbage out.
Один из множества смешных переводов на AliExpress, который уже и не выглядит таким смешным, когда понимаешь источник проблемы.Как делаем лучше: примерЧтобы названия и описания товаров были понятнее и красивее, мы работаем в нескольких направлениях.Сокращение заголовковДлинные названия товаров тупо не влезают в интерфейс. Особенно это заметно на мобильных устройствах.
В разных местах приложения влезает разное количество текста. И его всегда слишком много.Мы проводили исследования пользовательского поведения, по итогам которых установили, что в результатах поиска пользователи отдают предпочтение коротким и красивым названиям, а в карточке товара ожидают увидеть как можно больше информации. То есть нам нужно два разных названия, одно для мест с ограниченным пространством и другое для подробного описания.
Красиво в поиске, неинформативно на карточке товара.
Некрасиво в поиске, зато на карточке покупатель видит всё, что ожидает увидеть.Но заставить продавцов переписывать десятки и сотни миллионы товаров проблематично. Из-за количества продавцов, которых больше 200 тысяч, и товаров это достаточно инертная система.Поэтому мы используем разные движки для перевода заголовков в разных местах приложения, предварительно обучая их на специально подготовленном датасете.Сначала мы в AliExpress Россия формализируем «идеальное название» для выбранной категории товара и пишем шаблон. Затем отдаём набор реальных названий товаров для перевода специально обученным людям по этому шаблону. Полученный датасет применяем к движку, который использует его для товаров выбранной категории.Вместо заключенияМы активно занимаемся локализацией и адаптацией продуктов для русскоязычных пользователей – например, недавно выпустили обновленное мобильное приложение, активно стимулируем появление на площадке локальных продавцов. Поэтому естественно, что много делается и для того, чтобы переводы становились лучше. От этого выигрывают и покупатели, которые знают, чего ожидать, и продавцы, у которых растут продажи. И только авторы смешных подборок на «Пикабу» огорчаются, ведь эпоха дурацких переводов подходит к концу. Даже для иллюстрации в этой статье пришлось долго перебирать каталог. Пишите в комментариях всё, что думаете. Попробуем ответить в пределах NDA.
===========
Источник:
habr.com
===========
Похожие новости:
- [Программирование, Разработка игр, Интерфейсы, Яндекс API, Голосовые интерфейсы] Лучшие навыки Алисы и советы от их разработчиков
- [Usability] Надо ли дизайнеру разбираться в верстке?
- [API, Разработка под e-commerce, Управление e-commerce] Как продавать на маркетплейсе, не вздрагивая при слове «инфообмен»
- [Изучение языков] Откуда взялся 'do' в вопросах и отрицаниях?
- [Разработка веб-сайтов, Usability, Управление сообществом, Дизайн, Научно-популярное] Неуважительный дизайн (перевод)
- [Разработка под e-commerce, Управление e-commerce, Управление продажами, Законодательство в IT] ФАС предложили обязать интернет-компании раскрывать алгоритмы ранжирования
- [Алгоритмы, Машинное обучение, Искусственный интеллект, Будущее здесь, Natural Language Processing] 30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?
- [Ненормальное программирование, Программирование, Совершенный код, C++, C] Металингвистический совратитель Си. Опус III: Садистская машина
- [Интерфейсы, Usability, Научно-популярное, Софт, Настольные компьютеры] Windows must die (перевод)
- [Веб-дизайн, Интерфейсы, Usability, Графический дизайн] Руководство по цвету в UX/UI-дизайне (перевод)
Теги для поиска: #_interfejsy (Интерфейсы), #_usability, #_razrabotka_pod_ecommerce (Разработка под e-commerce), #_lokalizatsija_produktov (Локализация продуктов), #_aliexpress, #_mashinnyj_perevod (машинный перевод), #_ecommerce, #_aliekspress (алиэкспресс), #_alibaba, #_kitaj (китай), #_kitajskij (китайский), #_jazyk (язык), #_blog_kompanii_aliexpress_rossija (
Блог компании AliExpress Россия
), #_interfejsy (
Интерфейсы
), #_usability, #_razrabotka_pod_ecommerce (
Разработка под e-commerce
), #_lokalizatsija_produktov (
Локализация продуктов
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 17:54
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Привет. Меня зовут Владимир, я работаю в «AliExpress Россия» специалистом по локализации.AliExpress известен своими странными переводами. Сколько шуток было на эту тему,даже от нас самих. И сторонний наблюдатель восклицает: «Ну сделайте уже нормально!»; продвинутый технарь ухмыляется: «Не могут нормальный Гугл Транслейт прикрутить»; а профессионалы из области машинного перевода наперебой советуют «кастомизированный движок» или MTPE. Все они и правы, и неправы одновременно.В этой статье я расскажу:
На этом скриншоте весь текст относится к интерфейсу — всё во власти AliExpress.МаркетингБаннеры, правила промоакций, игры, почтовая рассылка — в ведении креативной команды в составе Content Strategy. Большая часть русских текстов пишется в российской компании живыми людьми (есть ещё какое-то количество текстов, автоматически генерируемые баннеры и т. п., создаваемых глобальной командой в Ханчжоу для всех стран присутствия AliExpress ). Дерево категорий и фильтры поискаДостались в наследство отAlibaba.com, претерпели множество итераций по улучшению переводов. Находятся в ведении категорийных менеджеров, но до сих пор проскальзывают артефакты старого машинного перевода. Здесь AliExpress контролирует текст частично и есть много легаси, тесно связанного с глобальной площадкой.Витрины продавцовИли «Магазины» (навигация внутри магазина, баннеры, прочая информация) — всё это пишет сам продавец так, как ему покажется разумным. В отличие от других маркетплейсов в России, на AliExpress оформлять свой магазин можно в свободной форме и нет добровольно-принудительного для продавцов участия в распродажах со скидками. Инструменты для полноценной локализации у продавца ограничены, поэтому часто можно видеть полностью англоязычную навигацию. Машинный перевод не используется. В стандартном меню «Товары» есть разделы, которые пишет сам продавец — в силу своих языковых умений. Информация о товареНазвание товара, варианты комплектации, параметры и текст с подробным описанием — полностью во власти продавца. Он может писать так, как ему кажется правильным. Именно к этому тексту применяется машинный перевод «на лету». Тут начинается владение продавца: текст на фотографии товара, варианты комплектов, название товара, разделы магазина — всё это продавец волен писать так, как ему кажется правильным. И наконец, полное раздолье для продавца, включая «Категории магазина» слева. Текст на рыжем фоне вообще корейский, но кого это волнует? Информация о товареКак вы поняли, больше всего «машинному переводу» подвержены названия и описания товаров. Их много, их пишут китайские продавцы, их нужно показывать на русском. Расскажу, как пишутся эти названия — и почему именно так.Сложности китайскогоПлотность информации в китайском языке очень высокая: язык стремится к двусложным словам, т. е. к двум иероглифам, а условный «корень» слова может выражаться одним символом. Оцените плотность информации в китайской типографии. Газета «Женьминь Жибао»2021 г. (слева) и 1950 г. (справа). Как видите, плотность информации за 70 лет не сильно изменилась. Сайтыследуют тем же принципам.В китайском нет пробелов. Знаки препинания (точки, запятые) появились в нём только в ХХ веке. Тогда же поменялось направление письма, пять тысяч лет сохранявшееся как «сверху вниз, справа налево» и превратившееся в строгое европейское «слева направо» (в Японии, например, сайты пишут слева направо, а книги, как древние китайцы, справа налево).Структура названияНазвание товара на AliExpress, как правило, очень длинное, хаотичное и похоже на SEO, т. е. продавец добавляет туда всё, что имеет хотя бы косвенное отношение к товару, из принципа «больше напишу — по большему количеству запросов покажусь».Вот как выглядит название типичного товара на Taobao: Ссылка на оригинал, если интересно.Из чего состоит название на скриншоте?【立省100元 套餐1赠耳机】OPPO A72 5G双模90Hz大内存大电量全面屏学生老人智能拍照全网通手机旗舰正品
И даже эти лаконичные названия не влезают целиком в предусмотренные дизайном две строчки текста.Покупателями в Китае это не воспринимается как информационная загруженность, потому что к ней привыкли и её ожидают увидеть. Исходя из этого проектируются интерфейсы и строятся поисковые алгоритмы.Резюмируя: исторически китайские продавцы склонны к тому, чтобы давать в заголовке максимум информации.А как на AliExpress?Теперь представим, что этот же китайский продавец решил открыть магазин, чтобы продавать телефоны не только внутри Китая, но и за границу.AliExpress не поддерживает названия на китайском. Продавцы обязаны ввести его на английском языке. Если продавец плохо владеет английским, то он открываетпереводчик Baidu (ведь Google в Китаезаблокирован) и получает... Пример машинного перевода от Baidu — заменителя Google в китайском интернете.И уже такой “английский” текст отправляется в карточку товара, где его ждёт новый машинный перевод.Машинный переводВ AliExpress уже не используют Google Translate. Во-первых, это чужая разработка, которая требует платы и получает очень много данных. Во-вторых, она разработана и натренирована на текстах общей тематики, без специфики e-commerce.Вместо этого используется внутренняя разработка — Alibaba Translate.Damo AcademyВ Alibaba Group есть R&D подразделение под названием DAMO Academy, которое разрабатывает свой движок для машинного перевода. Его используют во множестве дочерних бизнесов —Alibaba.com, AliExpress, в логистическом операторе Cainiao и так далее.В DAMO Academy работают лингвисты, математики и другие специалисты и учёные из связанных отраслей, чтобы делать движок именно для потребностей Alibaba — в первую очередь для сферы e-commerce.Учёные, кстати, довольно серьёзные. Вот их работао машинном обучении для нейролингвистического движка, а здесь — о получении информации для оптимизации переводов поисковых запросов. Осторожно: много формул. Exploiting Neural Query Translation into Cross Lingual Information RetrievalAlibaba TranslateСпециализация движка для перевода очень важна. Google Translate, доступный широкой публике, не имеет кастомизации в зависимости от сферы применения, и его модель обучена на тех языковых корпусах, до которых разработчики смогли дотянуться.В публичной версии Alibaba Translate,доступной на сайте, можно выбрать одну из моделей, в том числе e-commerce. Давайте сравним результаты. Условно хороший английский текст с одного веб-сайта e-commerce Google Translate Alibaba TranslateКак видите, при адекватном исходном английском тексте результаты Alibaba Translate не хуже Google. Но если вместо хорошего английского текста на входе текст, написанный абы как, получаем привычную абракадабру. Типичный пример концепции garbage in, garbage out. Один из множества смешных переводов на AliExpress, который уже и не выглядит таким смешным, когда понимаешь источник проблемы.Как делаем лучше: примерЧтобы названия и описания товаров были понятнее и красивее, мы работаем в нескольких направлениях.Сокращение заголовковДлинные названия товаров тупо не влезают в интерфейс. Особенно это заметно на мобильных устройствах. В разных местах приложения влезает разное количество текста. И его всегда слишком много.Мы проводили исследования пользовательского поведения, по итогам которых установили, что в результатах поиска пользователи отдают предпочтение коротким и красивым названиям, а в карточке товара ожидают увидеть как можно больше информации. То есть нам нужно два разных названия, одно для мест с ограниченным пространством и другое для подробного описания. Красиво в поиске, неинформативно на карточке товара. Некрасиво в поиске, зато на карточке покупатель видит всё, что ожидает увидеть.Но заставить продавцов переписывать десятки и сотни миллионы товаров проблематично. Из-за количества продавцов, которых больше 200 тысяч, и товаров это достаточно инертная система.Поэтому мы используем разные движки для перевода заголовков в разных местах приложения, предварительно обучая их на специально подготовленном датасете.Сначала мы в AliExpress Россия формализируем «идеальное название» для выбранной категории товара и пишем шаблон. Затем отдаём набор реальных названий товаров для перевода специально обученным людям по этому шаблону. Полученный датасет применяем к движку, который использует его для товаров выбранной категории.Вместо заключенияМы активно занимаемся локализацией и адаптацией продуктов для русскоязычных пользователей – например, недавно выпустили обновленное мобильное приложение, активно стимулируем появление на площадке локальных продавцов. Поэтому естественно, что много делается и для того, чтобы переводы становились лучше. От этого выигрывают и покупатели, которые знают, чего ожидать, и продавцы, у которых растут продажи. И только авторы смешных подборок на «Пикабу» огорчаются, ведь эпоха дурацких переводов подходит к концу. Даже для иллюстрации в этой статье пришлось долго перебирать каталог. Пишите в комментариях всё, что думаете. Попробуем ответить в пределах NDA. =========== Источник: habr.com =========== Похожие новости:
Блог компании AliExpress Россия ), #_interfejsy ( Интерфейсы ), #_usability, #_razrabotka_pod_ecommerce ( Разработка под e-commerce ), #_lokalizatsija_produktov ( Локализация продуктов ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 17:54
Часовой пояс: UTC + 5