[Поисковые технологии, Статистика в IT, Научно-популярное, IT-компании] «Яндекс» представил список слов, дающий представление о региональном разнообразии русского языка
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
В День русского языка 6 июня 2021 года аналитики компании «Яндекс» и эксперты Института русского языка имени Виктора Виноградова опубликовали список слов с их местным толкованием, который дает представление о региональном разнообразии русского языка.
«Яндекс» использовал данные из платформы «Яндекс.Дзен» для составления списка слов, которые используются только в определенных частях нашей страны. Сотрудники компании проанализировали статьи и комментарии шести миллионов пользователей «Яндекс.Дзен» с января 2019 года. Аналитики обработали 15 млн публикаций, 217 млн комментариев, 11 млрд словоупотреблений, которые сделали 6 млн пользователей. На выходе они составили список всех встретившихся в них слов.
«Яндекс» пояснил, что в итоговый список попали по 500 слов из каждого региона, «которые в том или ином регионе употребляют минимум в три раза больше пользователей, чем в среднем». Потом этот список слов и выражений изучили лингвисты из Института русского языка, отсеяли и отобрали самые интересные слова и выражения, исключив из списка топонимы, названия организаций, фамилии, ругательства и грубые слова, а также слова, обозначающие уникальные местные реалии. Каждому отобранному слову или выражению лингвисты дали подробное определение.
Вдобавок «Яндекс» открыл доступ кполному списку слов и выражений, которые компания получила в результате этой разметки — набор данных RussianLocalWordsDataset.
Примечательно, что для некоторых регионов страны характерных слов не нашлось — они не представлены в списке. «Яндекс» предположил, что это связано с темами, которые выбирают местные авторы, или в регионе просто мало интернет-пользователей, а соответственно, и данных. Список этих регионов: Еврейская автономная область, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Магаданская область, Ненецкий автономный округ, Республика Адыгея, Республика Алтай, Республика Дагестан, Республика Ингушетия, Республика Калмыкия, Республика Марий Эл, Республика Северная Осетия — Алания, Республика Тыва, Чеченская Республика, Чукотский автономный округ, Ямало-Ненецкий автономный округ.
Институт русского языка имени В. В. Виноградова приглашает всех желающих принять участие в опросе, чтобы понять, какая доля жителей определенных регионов, возрастов, уровня образования, использует те или иные слова.
===========
Источник:
habr.com
===========
Похожие новости:
- [Занимательные задачки, Читальный зал, Научно-популярное] История легендарной Денежной шахты острова Оук (перевод)
- [IT-компании] Google назвала язык каннада «самым некрасивым языком Индии» и столкнулась со скандалом
- [Интерфейсы, Usability, Научно-популярное] Переосмысляем «настольный компьютер» как концепцию (перевод)
- [Научно-популярное, DIY или Сделай сам, Транспорт, Будущее здесь] Джетпак вертолетного типа
- [Поисковые технологии, Браузеры, Социальные сети и сообщества, IT-компании] Пользователи заметили, что 4 июня в Bing в поиске по изображениям не находился бунтарь с площади Тяньаньмэнь
- [Научно-популярное, Космонавтика] Спутник радиовещания. Запуски года: 51 всего, 25 от США
- [Научно-популярное, Биотехнологии, Видеотехника] В Британии запустили микроскоп, способный снимать видео с частотой миллион кадров в секунду
- [Научно-популярное, Физика, Химия, Астрономия] Что варится в пекулярных звездах
- [Научно-популярное, Космонавтика, Астрономия] ЕКА начало наземные испытания копии марсохода «Розалинд Франклин»
- [Управление персоналом, Здоровье, IT-компании, Удалённая работа] Сотрудники Apple против возвращения в офисы
Теги для поиска: #_poiskovye_tehnologii (Поисковые технологии), #_statistika_v_it (Статистика в IT), #_nauchnopopuljarnoe (Научно-популярное), #_itkompanii (IT-компании), [url=https://torrents-local.xyz/search.php?nm=%23_«jandeks»&to=0&allw=0&o=1&s=0&f%5B%5D=820&f%5B%5D=959&f%5B%5D=958&f%5B%5D=872&f%5B%5D=967&f%5B%5D=954&f%5B%5D=885&f%5B%5D=882&f%5B%5D=863&f%5B%5D=881&f%5B%5D=860&f%5B%5D=884&f%5B%5D=865&f%5B%5D=873&f%5B%5D=861&f%5B%5D=864&f%5B%5D=883&f%5B%5D=957&f%5B%5D=859&f%5B%5D=966&f%5B%5D=956&f%5B%5D=955]#_«jandeks» («Яндекс»)[/url], #_spisok_slov (список слов), #_regionalnoe_raznoobrazie (региональное разнообразие), #_russkij_jazyk (русский язык), #_poiskovye_tehnologii (
Поисковые технологии
), #_statistika_v_it (
Статистика в IT
), #_nauchnopopuljarnoe (
Научно-популярное
), #_itkompanii (
IT-компании
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:37
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
В День русского языка 6 июня 2021 года аналитики компании «Яндекс» и эксперты Института русского языка имени Виктора Виноградова опубликовали список слов с их местным толкованием, который дает представление о региональном разнообразии русского языка. «Яндекс» использовал данные из платформы «Яндекс.Дзен» для составления списка слов, которые используются только в определенных частях нашей страны. Сотрудники компании проанализировали статьи и комментарии шести миллионов пользователей «Яндекс.Дзен» с января 2019 года. Аналитики обработали 15 млн публикаций, 217 млн комментариев, 11 млрд словоупотреблений, которые сделали 6 млн пользователей. На выходе они составили список всех встретившихся в них слов. «Яндекс» пояснил, что в итоговый список попали по 500 слов из каждого региона, «которые в том или ином регионе употребляют минимум в три раза больше пользователей, чем в среднем». Потом этот список слов и выражений изучили лингвисты из Института русского языка, отсеяли и отобрали самые интересные слова и выражения, исключив из списка топонимы, названия организаций, фамилии, ругательства и грубые слова, а также слова, обозначающие уникальные местные реалии. Каждому отобранному слову или выражению лингвисты дали подробное определение. Вдобавок «Яндекс» открыл доступ кполному списку слов и выражений, которые компания получила в результате этой разметки — набор данных RussianLocalWordsDataset. Примечательно, что для некоторых регионов страны характерных слов не нашлось — они не представлены в списке. «Яндекс» предположил, что это связано с темами, которые выбирают местные авторы, или в регионе просто мало интернет-пользователей, а соответственно, и данных. Список этих регионов: Еврейская автономная область, Кабардино-Балкарская Республика, Карачаево-Черкесская Республика, Магаданская область, Ненецкий автономный округ, Республика Адыгея, Республика Алтай, Республика Дагестан, Республика Ингушетия, Республика Калмыкия, Республика Марий Эл, Республика Северная Осетия — Алания, Республика Тыва, Чеченская Республика, Чукотский автономный округ, Ямало-Ненецкий автономный округ. Институт русского языка имени В. В. Виноградова приглашает всех желающих принять участие в опросе, чтобы понять, какая доля жителей определенных регионов, возрастов, уровня образования, использует те или иные слова. =========== Источник: habr.com =========== Похожие новости:
Поисковые технологии ), #_statistika_v_it ( Статистика в IT ), #_nauchnopopuljarnoe ( Научно-популярное ), #_itkompanii ( IT-компании ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:37
Часовой пояс: UTC + 5