[Поисковые технологии, Статистика в IT, Научно-популярное, IT-компании] «Яндекс» представил список слов, дающий представление о региональном разнообразии русского языка

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
07-Июн-2021 01:32


В День русского языка 6 июня 2021 года аналитики компании «Яндекс» и эксперты Института русского языка имени Виктора Виноградова опубликовали список слов с их местным толкованием, который дает представление о региональном разнообразии русского языка.
«Яндекс» использовал данные из платформы «Яндекс.Дзен» для составления списка слов, которые используются только в определенных частях нашей страны. Сотрудники компании проанализировали статьи и комментарии шести миллионов пользователей «Яндекс.Дзен» с января 2019 года. Аналитики обработали 15 млн публикаций, 217 млн комментариев, 11 млрд словоупотреблений, которые сделали 6 млн пользователей. На выходе они составили список всех встретившихся в них слов.
«Яндекс» пояснил, что в итоговый список попали по 500 слов из каждого региона, «которые в том или ином регионе употребляют минимум в три раза больше пользователей, чем в среднем». Потом этот список слов и выражений изучили лингвисты из Института русского языка, отсеяли и отобрали самые интересные слова и выражения, исключив из списка топонимы, названия организаций, фамилии, ругательства и грубые слова, а также слова, обозначающие уникальные местные реалии. Каждому отобранному слову или выражению лингвисты дали подробное определение.
Вдобавок «Яндекс» открыл доступ кполному списку слов и выражений, которые компания получила в результате этой разметки — набор данных RussianLocalWordsDataset.
Примечательно, что для некоторых регионов страны характерных слов не нашлось — они не представлены в списке. «Яндекс» предположил, что это связано с темами, которые выбирают местные авторы, или в регионе просто мало интернет-пользователей, а соответственно, и данных. Список этих регионов: Еврейская автономная область, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Магаданская область, Ненецкий автономный округ, Республика Адыгея, Республика Алтай, Республика Дагестан, Республика Ингушетия, Республика Калмыкия, Республика Марий Эл, Республика Северная Осетия — Алания, Республика Тыва, Чеченская Республика, Чукотский автономный округ, Ямало-Ненецкий автономный округ.
Институт русского языка имени В. В. Виноградова приглашает всех желающих принять участие в опросе, чтобы понять, какая доля жителей определенных регионов, возрастов, уровня образования, использует те или иные слова.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_poiskovye_tehnologii (Поисковые технологии), #_statistika_v_it (Статистика в IT), #_nauchnopopuljarnoe (Научно-популярное), #_itkompanii (IT-компании), [url=https://torrents-local.xyz/search.php?nm=%23_«jandeks»&to=0&allw=0&o=1&s=0&f%5B%5D=820&f%5B%5D=959&f%5B%5D=958&f%5B%5D=872&f%5B%5D=967&f%5B%5D=954&f%5B%5D=885&f%5B%5D=882&f%5B%5D=863&f%5B%5D=881&f%5B%5D=860&f%5B%5D=884&f%5B%5D=865&f%5B%5D=873&f%5B%5D=861&f%5B%5D=864&f%5B%5D=883&f%5B%5D=957&f%5B%5D=859&f%5B%5D=966&f%5B%5D=956&f%5B%5D=955]#_«jandeks» («Яндекс»)[/url], #_spisok_slov (список слов), #_regionalnoe_raznoobrazie (региональное разнообразие), #_russkij_jazyk (русский язык), #_poiskovye_tehnologii (
Поисковые технологии
)
, #_statistika_v_it (
Статистика в IT
)
, #_nauchnopopuljarnoe (
Научно-популярное
)
, #_itkompanii (
IT-компании
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 12:37
Часовой пояс: UTC + 5