[Разработка веб-сайтов] Юристы из Гарварда обратили внимание на проблему «мертвых» ссылок в интернете

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
25-Май-2021 19:30


Команда Гарвардской школы права изучила проблему «вымирания» ссылок и дрейфа контента в интернете. Исследователи проанализировали гиперссылки в статьях газеты New York Times начиная с запуска сайта NYT в 1996 году и до середины 2019 года. Исследование показало, что около четверти ссылок в статьях NYT нерабочие.В 2014 году Гарвардская школа права уже изучала «мертвые» ссылки. Тогда выяснилось, что почти половина всех гиперссылок в заключениях Верховного суда ведет к контенту, который либо изменился с момента публикации, либо исчез из интернета. В новом исследовании команда из Гарварда изучила более 550 тысяч публикаций NYT, содержавших 2,2 миллиона ссылок на внешние сайты. Из них 72% были глубокими — то есть вели на конкретный контент. Команда обнаружила, что около 25% ссылок в статьях NYT, которые раньше указывали на какой-то ресурс, теперь не работают. Эта проблема коснулась 53% статей, выходивших в NYT за последние 25 лет, при этом в материалах за 2018 год недоступными стали 6% ссылок, а за 1998-й — целых 72%. 
Авторы исследования отмечают, что в некоторых разделах NYT процент «мертвых» URL-адресов намного выше. В разделе «Спорт», например, почти втрое больше неактивных ссылок, чем в разделе The Upshot. Эта разница в значительной степени связана со временем: средний возраст ссылки в The Upshot составляет 1450 дней, в разделе «Спорт» — 3196 дней.Чтобы определить, какие разделы страдают больше всех, команда разработала метрику Relative Rot Rate («Относительная скорость гниения», RRR). Из пятнадцати разделов в которых больше всего статей, у раздела «Здоровье» были самые низкие показатели RRR. Раздел «Путешествия» показал самый высокий уровень «вымирания»: более 17% ссылок в статьях этого раздела оказались битыми.Дрейф контента также является серьезной проблемой. Из-за этого явления ресурс по ссылке может расходиться со статьей. В качестве примера исследователи привели материал 2008 года о гонке в Конгресс со ссылкой на члена городского совета Нью-Йорка и на его страницу на сайте совета. Сегодня, щелкнув ту же ссылку, читатель перейдет на сайт действующего члена совета округа. Чтобы определить распространенность дрейфа контента, команда изучила 4500 неповрежденных URL-адресов. 13% ссылок из этой выборки значительно изменились с момента публикации; при этом ссылки из статей за 2009 год ведут на изменившиеся ресурсы в 25% случаев, в статьях за 2019 год — в 4% случаев.Как указывают авторы статьи, для предотвращения потери ресурса по ссылке можно использовать сервис The Wayback Machine, предоставленный Архивом Интернета. В этом случае при утере страницы ссылка откроет ее копию из архива. Кроме того, в 2013 году Гарвардская школа запустила проект Perma.cc, который позволяет создать архивную версию страницы со ссылкой на первоисточник.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_razrabotka_vebsajtov (Разработка веб-сайтов), #_giperssylki (гиперссылки), #_garvard (гарвард), #_new_york_times, #_razrabotka_vebsajtov (
Разработка веб-сайтов
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 18:07
Часовой пояс: UTC + 5