[Open source, Data Mining, Расширения для браузеров, Natural Language Processing] Предлагаю подумать: как технологии могут помочь бороться с пропагандой в СМИ?

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
22-Окт-2020 19:30

Цитировать

Фотограф: Аркадий Шайхет.
Вступление
Эту статью можно разделить на две логические части. В первой я рассматриваю феномен медиапропаганды: что это такое, почему она опасна и к каким жутким вещам уже приводила в истории. Я подробно рассмотрю механизмы работы современной государственной пропаганды в СМИ и попытаюсь понять, почему она так эффективна и какими характерными признаками обладает.
Вторая часть – это размышления о том, как на основе рассмотренных в первой части характерных признаков можно попытаться автоматизировать распознавание пропаганды в СМИ. Поскольку пропаганда – это воздействие текстом (помимо картинки, конечно), а я не обладаю необходимыми познаниями в области обработки естественного языкы (Natural Language Processing), то мои выкладки – это именно что размышления вслух. Я буду более-менее структурированно описывать возможные функции программы, которая должна искать в материалах СМИ признаки пропаганды, но без технической конкретики.
Поэтому сразу скажу: не рассчитывайте прочитать в тексте про конкретные алгоритмы и их способы применения. Напротив – буду честен: я рассчитываю найти среди вас тех, кто разбирается как в области NLP, так и в разработке плагинов для браузеров и получить от вас обратную связь в комментариях. Если достаточное количество людей заразится моими идеями, то, возможно, нам с вами удастся вместе поработать над интересным опенсорсным решением!
Disclaimer
Поскольку на «Хабре» не должно быть политики, я не буду в тексте вдаваться в детали того, как появилась идея создания этого проекта. Если кто-то захочет об этом узнать – особенно, вероятно, те, кто захочет присоединиться к проекту – я расскажу в комментариях или личке. Давайте просто представим себе некое Государство, которое политологи бы охарактеризовали как «авторитарное», то есть, такое, в котором подавляются личные свободы граждан, производятся фальсификации на выборах, преследуется оппозиция и так далее, и представим себе, что всё, о чём речь пойдёт далее, относится к этому абстрактному Государству (хотя, учитывая культурный контекст, конечно, примеры будут в первую очередь из наших с вами постсоветских реалий). Почему я делаю фокус именно на государственной пропаганде, я объясню позднее.
Что такое пропаганда и почему она опасна?

Фотограф: Elliott Erwitt
Один из вечных столпов авторитарных государств – это мощная государственная пропаганда. Мы достаточно часто слышим про это явление – но что она из себя представляет?
Американский автор работ о пропаганде Эдвард Бернейс в 1928 году дал определение пропаганды как «последовательные, неослабные усилия по созданию или формированию событий с целью оказания воздействия на отношение общества к той или иной инициативе, идее или группе». Иначе говоря, это попытка манипуляцией общественным мнением. Интересно, что в международном праве до сих пор нет единого определения понятия «пропаганда» из-за того, что очень тяжело провести чёткую границу между проявлениями свободы слова и систематической пропагандой, учитывая, что многие авторитарные режимы с той или иной степенью успешности долгое время могут притворяться «дефектными» демократиями. Тем не менее, такие организации, как ОБСЕ, различают 2 вида пропаганды:

Пропаганда войны, а также национальной, расовой или религиозной ненависти, представляющие собой подстрекательство к дискриминации, вражде или насилию, как определено в международном и национальном праве. Это – противозаконный вид и, следовательно, требует юридических действий с соответствующими мерами согласно нормам международного права по правам человека. Зачастую пропаганда войны оперирует выразительными средствами так называемого «языка вражды».
Остальные виды пропаганды, которые наносят вред профессии журналиста, но не требуют юридической оценки.

Это довольно важный момент, давайте его зафиксируем: существует пропаганда войны, использующая язык вражды, и прочая политическая пропаганда. К этому разделению, а также к более точному определению языка вражды мы ещё вернёмся позднее. А пока давайте попробуем ответить на вопрос, почему пропаганда вообще представляет опасность для общества?
История знает несколько трагических примеров того, как пропаганде удавалось пробудить в людях чувство ненависти, что приводило к войнам и геноциду. Пример нацистского Третьего Рейха известен настолько, что не вижу смысла отдельно на нём останавливаться. Другой пример – геноцид в Руанде, в ходе которого люди из народности хуту на протяжении трёх месяцев убивали и насиловали сотни тысяч людей народности тутси; ещё за год до этих событий радиостанция «Свободное радио и телевидение тысячи холмов» стала призывать слушателей истреблять тараканов (презрительное название тутси) и позволяла себе расистский юмор, а с началом геноцида начала озвучивать адреса конкретных людей, которых, по их мнению, было необходимо убить. Частная радиостанция «тысячи холмов» получало финансирование от другой, государственной радиостанции, а его сотрудниками были исключительно хуту. Спустя многие годы экономист Гарварда Дэвид Янагизава-Дротт провёл исследование, в ходе которого ему удалось доказать влияние радиопропаганды на масштабы трагедии, сравнив уровень сигнала в каждой точке страны с количеством людей осуждённых за геноцид в данных точках.
Ещё один пример влияния пропаганды на ход истории – югославские войны. Многочисленные исследования роли СМИ в конфликте в бывшей Югославии показали, что СМИ на службе у режима способствовали разжиганию войны и ненависти. Марк Томпсон в книге «Ковка войны» (Forging the War) писал, что «словесное насилие привело к физическому». Итальянский журналист Паоло Румиз также написал в своей книге «Маски для бойни» (Masks for a Massacre), что «уже в 1988 году война была в заголовках и статьях».
Это всё – крайние примеры, когда пропаганда практически напрямую призывала к бойне и уничтожению другого народа или социальной группы. Но очевидно, что пропаганда не всегда настолько прямолинейна, да и не всегда преследует именно подобные цели. Почему же тогда она опасна и вредна?
Журналистика имеет перед собой цель – разобраться и информировать граждан о результатах своих расследований действий государства или других лиц. Пропаганда же хочет не просто информировать, а внушить какие-то идеи. Она манипулирует гражданами, чтобы те вели себя не осознанно, руководствуясь собственными интересами, а действовали в интересах манипулятора (например, государства), то есть: отдавали голос за «правильного» кандидата или решение или игнорировали очевидные проблемы и не задавали лишних вопросов власти. В условиях свободы слова это всё не кажется какими-то ужасными вещами, но в авторитарном государстве у власти помимо пропаганды есть и другие рычаги, такие, как давление на независимые СМИ, аффилированность медиамагнатов с властью и возможность проведения массовых фальсификаций на выборах, вследствие чего эффект пропаганды возрастает многократно. Кроме того, пропаганда зачастую добивается своих целей путём поиска иллюзорных врагов, внешних или внутренних, и аппеляции не к разуму и логике, а к чувствам (см. термин «постправда»), и из-за этих двух факторов государственная пропаганда иногда фактически балансирует на грани «риторики ненависти».
Кроме того, как мы увидим далее, современная госпропаганда чертовски эффективна, обладая большим арсеналом средств и каналов. Особая опасность заключается в том, что пребывая в бесконечном потоке информации, даже качественные СМИ порой могут подхватывать лживую информацию, намеренно пущенную в медиапространство манипуляторами. Одни из примеровпоследних лет: дезинформация о планах ЕС по отмене виз для мужчин-украинцев настолько часто упоминалась в украинских СМИ, что власти страны в какой-то момент были вынуждены сделать официальное опровержение, а незадолго до этого немецкие СМИ подхватили недостоверную информацию о зверствах на востоке Украины.

Для особо интересующихся: какие есть основные признаки пропаганды?

SPL

13 февраля 2014 года Общественная коллегия по жалобам на прессу (ОКЖП), российский орган медийного саморегулирования, издала документ, в котором сформулировала «систематические признаки пропаганды». Давайте рассмотрим эти признаки:
Инструменты:
Прямое убеждение и влияние

целенаправленное сведение многомерного к двумерному, цветного к черно-белому; сужение поля личного морального выбора и ответственности за выбор --> мышление в категориях «мы-они (враги)»; попытки чрезмерно простых объяснений для сложных процессов («США делает так-то – это потому что они нас на колени хотят поставить!»).
присутствие (обнаружение, создание, доработка) «образа врага»; внесение в массовое сознание и поддержание в нём разделения на «мы» (правильные, с истинными ценностями, с настоящей правдой) и «они» (с отрицательным набором по тем же позициям) --> Зачастую в государственной пропаганде глава государства представляется как сильный правитель, который много лет положил на процветание (или сохранение) страны, а те, кто выступают против него, делают это из нехороших намерений (захватить власть, разворовать страну, расколоть общество и т.д.)
формирование убеждения в моральной оправданности любого поступка по отношению к «врагу», в том числе «внутреннему врагу», в том числе врагу потенциальному, в том числе к лицу, недостаточно лояльному по отношению к государственным институтам, конкретным носителям власти, идеям или ценностям, прокламируемым в качестве соответствующих государственным интересам и национальным традициям. --> От пропагандистов часто можно услышать выражения в духе «Сталина на вас нет» (подразумевая массовые репрессии против «врагов народа») или «вот зачем нужна смертная казнь» и т.д.
«объектное» отношение «пропагандиста» к субъекту, конкретному человеку, общественной группе, обществу --> например, пропагандист может себе позволить в резких, неуважительных или даже оскорбительных выражениях говорить об оппозиционном политике или протестующих. «Объектное» отношение проявляется также и в том, что пропагандист рассматривает своего читателя или слушателя как ведомого, чьим доверием можно пренебречь --> и чьими убеждениями можно манипулировать. Журналист же расскажет реальную историю и даст сделать выводы реципиенту (хотя абсолютно объективной журналистики быть не может, и этому есть ряд объяснений – если интересно, то ознакомьтесь с такими теориями, как Agenda-Setting Theory, Framing, Priming).
повседневное убеждение, повторяющаяся последовательность вбрасываемых в обсуждение тем, примеров, образов; как правило, апелляция к традиционным ценностям как к единственным устойчивым в неустойчивом мире, а потому и самым «главным» в иерархии ценностей --> Набор сюжетов достаточно ограничен и состоит по большей части из постоянных мотивов, таких, как: «Запад как соперник», «координируемая извне оппозиция» и «националистичная Украина». Эти мотивы повторяются изо дня в день, благодаря чему позволяют сформировать у реципиентов определённое мировоззрение.
апелляция преимущественно к эмоциям, к чувствам, а не разуму --> Вот почему в ток-шоу доминируют повышенные тона на ровном месте.
игра на страхах, предубеждениях, фантомных болях; активное использование историй о злодеяниях и зверствах; широко распространённый рабочий приём – сообщение о жестокости и насилиях. --> А вы помните сюжет про «распятого мальчика» с войны на Донбассе? Никто так и не смог найти подтверждение этой истории.

Замутнение, запутывание

действие в логике «цель оправдывает средства»; использование средств и методов, сплошь и рядом несовместимых с такими ценностями, как честность, правдивость и т.д. --> использование «сфабрикованных» фото и видео, представление актёров в качестве реальных участников событий.
формирование СМИ-моделей, включая модели поведения, конструирование ситуаций, подлежащих обсуждению, сосредоточение внимания – с перенесением его из зон, уводимых при этом в тень, – на пропагандистских конструктах и виртуальных реальностях. --> Отвлечение внимания – это одна из главных стратегий манипуляторов. Самый простой пример – это когда вместо существенных тем (законопроекты, предвыборные программы, международные встречи) внимание сосредотачивается на неважных деталях. Или когда вместо проблем собственной страны активно обсуждаются проблемы соседних стран и кто там кем «кукловодит».

Подрывания и дискредитации правдивых репортажей и сообщений

целевой, работающий на жесткий «сценарий» отбор фактов, активное обращение к дезинформации, там, где это представляется полезным и возможным, манипулирование фактами, статистическими данными, мнениями, включая экспертные, или сдвиг акцентов там, где прямая дезинформация представляется «непроходной» --> Можно взять интервью у человека по поводу вопроса, в котором он не является экспертом; из большого социологического доклада рассказать только про часть данных; из длинной повестки переговоров рассказать только про ту часть, которая прошла успешно (или наоборот).
работа «под прикрытием журналистики», стремление играть или выполнять роль первичного источника новостей --> Зачастую пропагандистские редакции действительно делают репортажи с мест событий, берут интервью у участников этих событий – то есть, стилистически и функционально могут быть очень похожи на настоящие журналистские редакции. Эти журналистские материалы разбавляют теми, что, собственно, и должны формировать у реципиентов необходимое манипуляторам представление о событиях. Манипулятивные материалы часто подаются как аналитика либо ток-шоу и другие полуразвлекательные жанры.
фабрикация признаков надежности информации, включая ее источники. --> «Мутные» либо вообще анонимные эксперты, манипуляции социологическими данными, ложная интепретация графиков, намеренно некорректный перевод текста первоисточника.

Цели:

Наличие четкой, подлежащей реализации цели как ожидаемого итога воздействия на «объект» — с определенным изменением (или поддержанием) «картины мира» в его сознании; в идеале – с переведением «наведенного» убеждения в поступок и образ действий. --> Пример поступка: «правильный» голос на президентских выборах.
формирование лояльности адресата пропагандистского воздействия к системе институтов и идей, которым служит пропагандист. --> Долгосрочная цель государственной пропаганды, которая достигается путём вышеперечисленных инструментов: демонстрация надёжности информации, повторяемость нарративов и т.д.

Почему пропаганда эффективна? Каковы её инструменты?
На эти вопросы очень хорошо ответили эксперты НКО «RAND Corporation» Кристофер Пол и Мириам Мэтьюз. Имея в виду российскую государственную пропаганду, они утверждают в своём докладе, что «новая российская пропаганда развлекает, запутывает и шокирует аудиторию». И объяснили её эффективность следующими качествами: «Она оперативна, непрерывна, нелогична и использует принцип многократного повторения». Они сделали разбор каждой из этих характеристик:
1. Оперативна
2. Непрерывна
3. Нелогична
4. Использует принцип многократного повторения.
Давайте пройдёмся по каждому из этих пунктов и рассмотрим описанные авторами доклада механизмы влияния пропаганды на получателей информации.
Оперативна
Пропагандисты очень быстры в «изготовлении» материала, потому что им не требуется время на проверку фактов, сбор мнений из разных политических лагерей и т.д. (хотя иногда нужно время, чтобы определиться с отношением к тем или иным событиям). Дело в том, что человек скорее поверит первому сообщению, полученному по теме, и в дальнейшем при появлении конкурирующих сообщений будет склоняться в пользу точки зрения сообщения, полученного первым. Причём влияние первого сообщения на образ мышления может сохраниться даже при получении опровержения в будущем. Мы – словно алгоритм, который однажды чему-то научившись, разучиться может лишь с большим трудом.
Непрерывна
Пропаганда «штампует» сообщения как настоящая инфофабрика, не оставляя в потоке сообщений брешей. Реципиенты получаются непрерывную картинку обо всём происходящем вокруг. Дополнительную эффективность эта непрерывность получает благодаря многоканальности современной пропаганды. Ведь на слуху у всех сюжеты с пары-тройки пропагандистских телеканалов и сайтов, но на самом деле продвигающих «линию партии» сайтов и телеграм-каналов, по утверждению авторов доклада, десятки. И такая многоканальность очень помогает пропаганде в достижении своих целей по причине того, что людям свойственно полагать, что информация, полученная из различных источников, скорее всего, основана на различных точках зрения, а значит заслуживает внимания. Поскольку эти каналы в сумме имеют огромный охват, то реципиенты находят как в своём окружении, так и в интернете множество людей, которые одобряют эту информацию, и тем самым достоверность этой информации в глазах реципиента повышается. Помимо этого, есть ещё один интересный эффект: когда интерес потребителя информации невысок (иными словами, когда у потребителя нет времени и желания разбираться в информации), убедительность сообщения зависит более от количества аргументов, приводимых в его защиту, чем от их качества.
Пропаганда использует ещё один баг нашего мозга: он получает свою дозу дофамина каждый раз, когда мы кликаем на клавишу проигрывания видео на Youtube, и очень легко «подсаживается» на потребление видеоконтента и просмотр лент соцсетей. Человек оказывается в состоянии потока, выбраться из которого очень сложно. Просто кто-то привыкает просматривать интервью, сериалы или короткие видео-вайны, а кто-то – посты на политические темы и ток-шоу.
Нелогична
Пропаганда умеет «переобуваться» на ходу, но это никак не влияет на тех, кто уже ассоциирует себя с пропагандистскими каналами информации. Тут играет роль и то, что людям, как правило, лень разбираться в информации, и то, что люди просто-напросто забывают, что телеведущий всего несколько недель назад говорил нечто прямо противоположное, и то, что если реципиент однажды начинает доверять некоему источнику, то он перестаёт критически относиться к распространяемой им информации.
Использует принцип многократного повторения
Как вы уже поняли, пропаганда эксплуатирует несколько интересных багов нашего мышления. Один из них – «эффект иллюзорной правды». Люди скорее воспримут утверждение как правдивое, если уже слышали его раньше, чем если бы это было совершенно новое сообщение. Эффект иллюзорной правды проистекает из того факта, что повторяющиеся утверждения мы воспринимаем легче и принимаем за правдивые. Интересная деталь от авторов доклада: «Даже в случае с нелепыми историями и городскими легендами те, кто слышал их множество раз, склоняются к тому, чтобы в это поверить.»
Как можно перехватить первое впечатление?

Фотограф: Rene Maltete
Итак, мы рассмотрели теорию пропаганды, мы поняли, почему она опасна и почему она действенна. Только представьте себе тысячи, если не миллионы своих сограждан, которым день за днём объясняют, кого любить и выбирать, а кого ненавидеть и преследовать – очевидно, что такая ситуация нездорова для государства, ведь граждане должны делать свой собственный выбор, сделанный на основе собственных убеждений, сформированных на правдивых фактах. В такую ситуацию попал я. И, как программисту, мне захотелось сделать что-то своими руками.
Меня особенно зацепил тот факт, что пропаганда старается создать первое впечатление, и достигает этого путём своей многоканальности – по крайней мере, в онлайне. Я сразу представил себе человека, который после тяжёлого рабочего дня заходит в интернет, открывает новости в своём браузере и открывает портал в поток сознания ловких манипуляторов. И вот тут-то я понял, что самый простой способ перехватить первое впечатление, а точнее помешать пропагандистами создать его – это создать расширение для веб-браузера, которое сможет анализировать материалы в режиме живого времени. Открыл веб-страницу – получил аналитику с предупреждениями: вот тут, там и здесь – характерные для пропаганды признаки!
В пользу разработки подобного плагина говорят ещё несколько теорий из социологии и сферы изучения медиа.

В своё время у исследователей медиа и политологов была популярной теория, именуемая Теорией установления повестки дня (“agenda-setting theory”), согласно которой часто освещаемые события кажутся реципиентам более важными – таким образом, СМИ могут влиять на их решения (например, на выборах). Но позже исследователи доработали эту теорию, признав, что формирование повестки дня является обоюдным процессом, и публика тоже принимает участие в формировании повестки дня. Это говорит о том, что в идеале люди должны проявлять интерес к происходящему вокруг, находить время и силы, чтобы разбираться в информации и делать соответствующие выводы и конкретные действия. Короче говоря, быть политграмотными – что довольно трудно, когда при всех делах и проблемах рутинной жизни желание на получение подобной грамотности сходит на нет. Если же человек сможет получать немедленную оценку качества материалов, да ещё и иметь возможность поставить свою обоснованную оценку, то его вовлечение повышается. В плагин для браузера легко встроить возможность прямого реагирования реципиента на контент (например, возможно выставления рейтинга материалу или СМИ на основе некоего check-list; эти данные потом могут агрегировать в единый рейтинг СМИ).
Илай Парайзер (Eli Pariser) придумал понятие «пузырь фильтров» („filter bubble”), которое описывает феномен, когда современные социальные сети подбирают для нас информацию на основе того, что нам (как кажется их алгоритмам) интересно. Из-за этого мы постепенно оказываемся в пузыре, получая лишь однобокую информацию и совсем не узнавая, что происходит за пределами этого пузыря. Это, например, привело к ещё большей поляризации американского общества, в котором разделение на демократов и республиканцев в последние годы усилилось. Возможно, этот эффект не был бы столь силён, если бы не очередной баг нашего мышления, названный «предвзятостью подтверждения» („confirmation bias“): мы отдаём предпочтение той информации, которая согласуется с нашей точкой зрения. «Пузырь фильтров» лишь усиливает эту нашу когнитивную ловушку. Ухудшается вся ситуация тем, что убеждения человека начинают усиливаться из-за возникновения вокруг него некоего сообщества, которое вследствие тех же когнитивных ошибок и особенностей работы алгоритмов имеет одинаковые с твоими убеждения, и эти убеждения взаимно усиливаются путём передачи и повторения сообщения внутри сообщества (эта ситуация называется «эхо-камерой», или “echo chamber”). Вот так и получается, что человек, по той или иной причине подверженный влиянию пропаганды, со временем всё больше ввязывается в её путы, и даже не подозревает о том, что им манипулируют. Получение немедленной обратной связи относительно потребляемых материалов могло бы многим открыть глаза (при условии общей открытости реципиентов к новому).

Вот тут мы наконец можем перейти к практической части. Ну как практической – пока всё же полупрактической. Я очень долго размышлял над тем, как можно формализовать признаки пропаганды до степени более-менее конкретных правил – и кое-как продвинулся в этом деле, используя наработки различных исследователей.
Следующим шагом была бы собственно разработка плагина для браузеров и, соответственно, автоматизация поисков признаков пропаганды. И вот тут я наткнулся на границы своих познаний. Для автоматизированного поиска этих признаков необходимы познания в NLP (Natural Language Processing), коих у меня нет. Я что-то где-то когда-то слышал, но именно на таком уровне: мне кажется, что вот для этого есть какие-то там алгоритмы. Лезть в чужой огород не хочется, ибо наверняка найдутся люди, которые умеют в обработку русского языка и которые могли бы

Выразить своё общее мнение по поводу моих идей;
Предложить варианты решения описанных проблем.

На данном этапе я не делаю фокус на том, как разработать сам плагин (или программу другого формата), а концентрируюсь именно на определении характерных, формализованных признаков пропаганды в медийных сообщениях, и возможностях автоматизации процесса их поиска.
Конечно, я прекрасно понимаю, что за этим плагином будет много чего стоять, и по алгоритмике, и по инфраструктуре. Сейчас моя цель – это получить первую обратную связь в духе «в целом реально» или «в целом нереально» (или даже «реально, но бредово»). И, возможно, заразить кого-то своими идеями.
Определение и автоматизация процесса поиска признаков пропаганды в материалах СМИ

Ну… вот как-то так оно должно работать.
Очевидно, что существуют различные медийные форматы: текстовые трансляции, видеорепортажи, аналитические телеграм-каналы и ток-шоу. И у каждого формата есть свои особенности, которые нужно, наверное, учитывать. Или нет? Так или иначе, я предлагаю начать с простого формата: статьи (то есть, тексты) на новостных сайтах. Человек открывает сайт и начинает читать тексты на этом сайте. Поставьте себя на его место: на что он должен обратить внимание? Как именно он сможет понять, что перед ним – попытка манипуляции?
Я разработал методику, которая не претендует на полноту, но которая должна покрывать существенную часть формальных признаков пропаганды. Формализовать всё невозможно, и этот момент мы ещё обсудим позднее. Но многие признаки вполне можно отыскать, будучи человеком, и вполне возможно, что и алгоритмы смогут справиться с этой задачей.
Все правила для признаков пропаганды в новостных текстах я разбил на несколько логических категорий.
Качество подачи материала
Эта категория содержит несколько правил, которых должна придерживаться новостная журналистика.
Был ли дан контекст?
Смысл: В конце новостного текста часто можно встретить краткое описание событий, предшествовавших произошедшему событию. Например, если в новости приведены выдержки из последнего интервью Трампа, то в конце обычно объясняется, что сейчас в США проходит президентская гонка, и по социологическим опросам пока что лидерство у того-то, а тот-то считает вот так.
Критика: Не у всех событий есть контекст – некоторые из них просто происходят. Например, взрыв в Бейруте.
Автоматизация:

Это могут быть слова-маркеры, такие, как «напомним, что».
Можно попытаться автоматизировать экстрагирование главного смысла из статей издания, и сохранять эти главные тезисы в течение какого-то времени. При появлении новых статей последние абзацы также сокращаются до главных тезисов, и в базе прошлых публикаций этого издания происходит поиск максимально похожих тезисов. Если таковые найдены не были, то либо событие абсолютно новое, либо контекст не был дан.
Поскольку не у всех событий может быть контекст, то отсутствие оного в конце статьи – не строгий критерий, и при предполагаемом отсутствии контекста должно выводиться просто предупреждение, а не «тревога».

Наличие источников
Смысл:

Общее правило: если есть новость, то должно быть сказано, откуда поступила эта новость – ведь у новости всегда есть какой-то источник.
Если статья содержит ссылку на какой-то источник информации (например, политик или другое медиа), то должна быть дана гиперссылка.

Критика:

Что делать с анонимными источниками (без которых не может существовать журналистика)? Что делать с расследовательской журналистикой (которая по формату отличается от новостной)?
Не у всех источников могут быть свои сайты. Либо теоретически возможна ситуация, в которой информация была передана по ТВ, но не в интернете. Оба фактора могут осложнить дачу гиперссылки.

Автоматизация:

Алгоритм должен уметь определять в тексте наличие источников информации. Либо по ключевым словам: «сообщил», «сказала», либо с помощью техник NLP.
Проверять наличие гиперссылок легко;
Если гиперссылка дана в новости Б, то можно было бы вызвать текст источника А и проверить, была ли в тексте Б использована статистически важная информация из А?
Также можно проверить, правильно ли были переданы цифры (например, из соцопроса) из текста А в тексте Б.

Корректность перевода
Смысл: если статья целиком или частями переведена, то был ли перевод сделан корректно?
Критика: Оценить корректность перевода автоматизированно практически невозможно. Поскольку манипуляция может скрываться в выборе отдельных слов, то нам требуется алгоритм, который очень чуток к мельчайшим оттенкам понятий, а таковых, насколько я понимаю, пока не существует. Значит, такой вид манипуляции при переводе найти будет нереально. Но что реально обнаружить, это действительно ли оригинальная статья содержала тезис, похожий на тот, что приводится в переводе (или он был полностью выдуман?).
Автоматизация: перевод либо оригинального текста на язык перевода, либо наоборот, через вызов некоего API, и сравнение двух текстов на семантическую близость (надеюсь, я правильно это назвал?).
Анализ контента
Эта категория содержит действия, которые можно применять вдобавок к перечисленным в первом пункте.
При наличии конфликта: были ли выслушаны все стороны?
Смысл: самый простой пример: если президент критикует оппозиционера, то было бы хорошо, если бы новостное издание спросило мнение оппозиционера по этому поводу.
Критика: не всегда такое правило имеет смысл. Если президент в целом про протестующих на улицах говорит, что это – марионетки Запада, то не совсем понятно, у кого спрашивать мнение по этому поводу, и добавит ли ответ на эту реплику информационной ценности материалу. Поэтому это правило нужно попытаться более жёстко формализовать: например, если какой-то конкретный человек или организация обвиняет другого конкретного человека или организацию в чём-то конкретном, то тогда действительно нужно спросить мнение другой стороны. Но реакция другой стороны может последовать не сразу и опубликована какое-то время спустя, что вновь обуславливает сложность выполнения данного правила.
Автоматизация:

Подобно тому, как мы собираемся автоматизированно выявлять источник информации, нужно научиться выявлять стороны конфликта (если это возможно алгоритмически).
Просто мысль: имеет ли смысл сохранять информацию про общественно значимых персон и организации в социальном графе? Для того, чтобы понимать, от кого ждать ответную реплику?

Сравнение: как тот же инфоповод осветили другие издания?
Смысл: сравнить подачу событий данным изданием с подачей других изданий.
Критика: честно говоря, не вижу слабых сторон. Если найдёте, скажите.
Автоматизация:

Выделить из текста главные тезисы или понятия, и делать поиск по этим тезисам или понятиям в других общественно значимых изданиях (о том, как их определить, поговорим отдельно).
Более простое решение – предлагать на основе анализа текста ключевые слова, по которым читатель сразу может начать искать дополнительную инфомарцию, например, в Google News.

Анализ на манипуляции
Если прошлые категории предлагали некие стандарты качества для новостных материалов, то в этой категории речь пойдёт непосредственно о намеренных манипуляциях путём выразительных средств.
Предвзятость ньюсмейкеров
Смысл: манипулятивные действия могут совершаться не только самими СМИ, но и теми, кого СМИ цитируют. Поэтому довольно неплохо знать, что ранее говорил субъект про явления, про которые высказывается сейчас.
Критика: у любого человека есть некий набор установок, ценностей и мировоззрений, то есть, по сути, любой человек необъективен. Поможет ли реципиенту знание того, что Вячеслав Володин и раньше делал выпаду в сторону Запада? Ну разве что, поможет на примере других людей задуматься о своих установках и том, насколько они пластичны. Что думаете?
Автоматизация: можно сохранять взаимоотношения между субъектами в социальном графе. И под рёбрами графов сохранять прошлые высказывания субъектов друг о друге.
Слова-маркеры
Смысл: есть целый набор слов, которые могут выдавать манипуляции или прорехи в аргументации. Например, слова выражения вроде «очевидно, что» или «все мы знаем, что».
Критика: нужно учитывать, что возможно, в некоторых контекстах подобные выражения уместны («очевидно, что насилие – это зло»). Поэтому этот критерий может быть не жёстким, а мягким (предупреждение, а не тревога). Также процесс создания базы подобных слов и выражений может быть довольно затратным в плане усилий (вероятно, нужно прочитать довольно большое количество текстов).
Автоматизация: поиск по словам (и их склонениям) и выражениям (и семантически очень близким к ним). Поиск можно осуществлять как по высказываниям ньюсмейкеров, так и по текстам в целом.
Анализ оттенков слов
Смысл: я назвал эту функцию так, потому что это название наиболее близко передаёт её смысл. Есть же разница в том, чтобы сказать «протестующие вышли на улицы» или «протестующие заполонили улицы»? Очень часто манипуляции заключаются именно в использовании определённой лексики, которую можно, наверное, назвать «оценочной». То есть, происходит не просто констатация факта, а сразу даётся некая оценка этому факту.
Критика: Это должна быть непростая задача для алгоритма, но я придумал другое решение (которое, впрочем, тоже не из простых – смотрите ниже).
Автоматизация: психолингвисты разработали модель под названием Linguistic Category Model, которая имеет такой инструмент, как «шкала конкретности / абстрактности». Чтобы понять, как она работает, давайте рассмотрим следующие высказывания:

Протестующие выходят на улицы
Протестующие заполонили все улицы
Протестующие ненавидят власть
Протестующие – фашисты.

Я, конечно, утрирую, и простите меня, лингвисты, если я привёл не совсем корректные с точки зрения этой теории формулировки, но общий смысл примерно такой: существуют 4 ступени конкретности / абстрактности, от самой конкретной формулировки (фактической) до самой абстрактной (оценочной).
Для того, чтобы применить эту модель при анализе текстов, можно было бы создать разметку понятий. Поскольку создать разметку для всех языковых ситуаций, наверное, нереально, да и не нужно, мы можем сконцентрироваться именно на политическом дискурсе, создавая разметку для ситуаций, часто встречающихся в политико-медийном поле. То есть, это будет что-то типа базы синонимов, в которой у каждого слова есть свои «спарринги» из других ступеней шкалы конкретности / абстрактности.
Нарративы госпропаганды
Смысл: я уже говорил, что меня в первую очередь интересует госпропаганда, и хотя все предыдущие пункты могут быть использованы для поиска любой пропаганды, этот пункт я посвящаю именно государственной. Дело в том, что набор сюжетов, которые использует госпропаганда в своих материалах, довольно ограничен и пополняется новыми сюжетами довольно редко. Сколько лет мы уже слышим про «марионеток и спецслужбы Запада», или «украинских националистов»? То есть, новые мини-мотивы, конечно, появляются («диабетная кома Навального»), но на некоем более высоком уровне абстракции, как правило, это всё те же старые мотивы, что были и год, и пять лет назад.
Критика: не нашёл. Если найдёте, скажите.
Автоматизация:

Создание базы основных нарративов, сохранённых в разных формулировках. За этой базой нужно следить, чтобы она оставалась актуальной. Делать это могут исследователи, которые профессионально занимаются изучением пропаганды.
Анализ семантической близости между главными тезисами статьи и формулировками типичных нарративов пропаганды.

Язык вражды и войны
Справка:
Через несколько лет после Октябрьской революции 1917 г. детский поэт Корней Чуковский написал: «С величайшей гордостью вспоминают советские люди, как чудесно обновила наш язык революция. Она очистила его от таких омерзительных слов, как жид, малоросс, инородец, простонародье, мужичье и т. д. Из действующих слов они сразу же стали архивными». К сожалению, он ошибался, ведь не все из этих слов были искоренены, а многие были заменены ещё более оскорбительными.
Слова, которе перечислил детский писатель, относятся к лексикону так называемого «языка вражды» (синонимичное выражение – «риторика ненависти»). Общепринятого определения «языка ненависти» в международном праве нет, но в основном этот термин интепретируют в контексте ненависти к людям, имеющим так называемые «защищённые характеристики» — это личные характеристики, по которым вас не имеют права дискриминировать: раса, цвет кожи, пол, язык, религия, политические и иные убеждения, национальное или социальное происхождение, собственность, возраст, рождение, происхождение из коренного народа или самоидентификация с коренным народом, инвалидность, статус мигранта или беженца, сексуальная ориентация, гендерная идентичность или интерсекс вариация.
В целом, это довольно широкая категория признаков. Вражда же – это «интенсивное и иррациональное чувство осуждения и отвращения по отношению к отдельному индивиду или группе, избранных в качестве объекта по причине обладания определенными – реальными или приписываемыми – защищенными характеристиками (признанными международным правом). «Вражда» – это больше, чем просто предвзятость, и она обязательно имеет дискриминационный характер. «Вражда» является проявлением эмоционального состояния или мнения и, таким образом, отличается от любого явного действия.» И это важный момент – использование «языка вражды» необязательно непосредственно приводит к каким-то конкретным последствиям. То есть, услышав «давайте резать хоббитов», вы понимаете, что звучит призыв к геноциду. А как относиться к оценке «наша гнилая, продажная, смердящая оппозиция» (обе формулировки придуманы, любые совпадения случайны)? Призыва к действиям нет, если кто-то добровольно пойдёт что-то делать с оппозиционерами, то найти связь его действий с данной кем-то из публичных лиц оценкой будет проблематично, и тем не менее, в этой оценке звучит как минимум предвзятость, но судя по эмоциональному градусу, это вполне может быть и вражда.
В общем, чёткие трактовки и границы этих терминов найти затруднительно. Например, глубоко оскорбительные выражения не относятся автоматически к языку вражды – если они не звучат применительно к некоему объекту именно из-за его защищённых характеристик. В контексте «языка вражды» часто звучат термины «ингруппа» и «аутгруппа» — то есть, при использовании «языка вражды» подразумевается некое противостояние двух групп, наличие деления на «своих» и «чужих. Но существуют и более чёткие классификации «риторики ненависти». Согласно одной из них, сформулированной исследователем Верховским (Верховский А. М.: «Язык мой… Проблема этнической и религиозной нетерпимости в российских СМИ»), есть три большие категории языка вражды:

жёсткий (например, прямые призывы к насилию),
средний (например, обвинение в негативном влиянии какой-либо социальной группы на общество, государство или оправдание исторических случаев дискриминации и насилия)
и мягкий (например, утверждение о моральных недостатках этнической группы или упоминание названий этнической группы в уничижительном контексте).

Стало быть, столь любимые всеми этнофилизмы (обидные клички представителей других народов) – это тоже язык вражды.
Смысл: медийный текст не должен содержать выражения из языка вражды. Ни журналистский материал, ни новостной сюжет, ни просто колонка с авторским мнением.
Критика: даже представители НКО, чей доклад я цитировал выше, признают, что существуют контексты, когда язык вражды не должен быть наказуем. Например, когда намерение могло быть либо более несерьезным (например, непродуманный или фривольный комментарий в социальных сетях), либо более сложным (сатира или провоцирование дискуссии по сложному вопросу, например посредством искусства), чем проявление вражды. То есть, с уверенностью определить язык вражды может быть довольно трудной задачей, тем более, что критерии у разных исследователей расходятся (кто-то относит отрицание исторических событий к языку вражды, а кто-то нет).
Автоматизация: создание базы выражений, относящихся к языку вражды. Можно создать базу вообще любых оскорбительных слов и выражений, и хотя это может усложнить задачу сбора данных, это упростит поиск в тексте выражений, которые манипулируют мнением реципиента о человеке или группе людей. Тогда и функция будет названа не «поиском языка вражды», а «поиском экспрессивных выражений» или что-то тому подобное. Не очень понятно, правда, что в таком случае делать с произведением «Идиот» Достоевского.
База языковых штампов госпропаганды
Смысл: в текстах государственной пропаганды часто можно встретить расхожие выражения, которые характерны именно для этого жанра. Например, «прошёл митинг в поддержку действующего политического курса страны».
Критика: тяжело находить такие выражения и удостовериться, что они были использованы именно в пропагандистском дискурсе. Кроме того, мы не можем исходить из того, что эти выражения всегда используются лишь в пропагандистских СМИ. Возможно, этот критерий избыточен, но если всё же будет доказана его целесообразность, то это должен быть «мягкий» критерий пропаганды.
Автоматизация: Как и в прошлом пункте, не знаю, в каком формате должны быть эти выражения сохранены. Ведь нужны, наверное, склонения / спряжения, если мы хотим совершать поиск по выражениям-маркерам? Если мы пойдём путём обучения алгоритма, то нам нужен корпус текстов? Извините, как я уже говорил, я – профан в компьютерной лингвистике.
Анализ настроения (sentiment analysis)
Смысл: пропаганда, как мы выяснили, старается влиять на эмоции. Зачастую она вызывает негативные эмоции не из-за представления какого-либо свершившегося факта (гнев из-за избиения человека), а из-за интерпретации, обвинений и оценочных суждений.
Критика: я не знаю, насколько хороши современные алгоритмы sentiment analysis, и какие у них есть ограничения (например, по размеру текстов) для обеспечения хороших результатов.
Автоматизация: анализ настроения по абзацам, главам или всему тексту, и если негатив был найден, то вопрос пользователю: «Вероятно, вы чувствуете X. Из-за свершившегося факта или чьей-то интерпретации в отношении Y)?».
Анализ качественности СМИ
Эта категория содержит несколько предложений по тому, как оценивать «качественность» СМИ. Под качественностью подразумевается то, насколько СМИ соответствует описанным выше критериям качества подачи материала и честности к реципиентам (то есть, когда не пытается ими манипулировать).
Игнорирование событий
Смысл: довольно часто пропагандистские ресурсы просто игнорируют некие события, чтобы в их «мире» этих событий вообще не существовало, и реципиенты не узнали о неких событиях, о которых манипулятор не хочет, чтобы они узнавали. Например, российские государственные СМИ долго игнорировали наличие такого оппозиционера, как Алексей Навальный.
Критика: напрашивается вопрос, как определить общественно значимые события. Также нужно учитывать тот факт, что у СМИ может быть некая специализация – например, экономика и финансы. В этом случае, деловая газета может и не упомянуть о событии из политической жизни. Чтобы учитывать такие нюансы, будет необходимо провести объективную классификацию СМИ на основе неких прозрачных критериев, что по ряду причин будет не такой простой задачей.
Автоматизация: выжимка главного смысла из каждого материала СМИ  сравнение таких «лент» от разных СМИ и определение общественно значимых событий  проверка, не писало ли данное СМИ об этом событии. Честно говоря, я не знаю, как воплотить эту идею в жизнь.
Анализ прошлых материалов от СМИ для нахождения закономерностей
Смысл: характеризовать СМИ по одному или нескольким материалам затруднительно. Единожды выдать СМИ ярлык «качественного» тоже проблематично, ведь у него может поменяться редакция. Поэтому нужно характеризовать СМИ по некоему числу последних N материалов. Вот на какие аспекты можно анализировать материалы СМИ в некоем временном континууме:

Перекос в сторону информации из государственных органов; недостаток материалов, где представлено мнение оппозиции или обычных людей;
Использование нарративов пропаганды или языка вражды в журналистских материалах в прошлом
Систематическое нарушение стандартов качества подачи материалов

Критика: Не нашёл «слабых мест».
Автоматизация: сохранение обнаруженных рассмотренными выше функциями признаков в формате time series или каком-либо другом. Возможно, пользователь сможет также сам сохранять какие-то заметки.
Причание 1: можно создать более широкий список критериев качественности СМИ, на основе которого пользователи плагина или некая группа экспертов (хотя я выступаю за открытость всех перечней, процедур и данных) будет оценивать СМИ.
Примечание 2: можно то же самое делать не для СМИ, а для политиков и общественных деятелей. Например: Лукашенко заявил о том, что в белорусских лесах после поимки 33 «вагнеровцев» всё ещё прячутся 170 «российских боевиков». Пользователя это заинтересует, и он сохранит пометку: «Жду подтверждения о ...». Проходит время, оказывается, что это было неправдой, и пользоветель отмечает это в плагине, и уровень достоверности Лукашенко у этого пользователя падает. Но это совсем другая функциональность, и дизайн функции тоже будем другим.
Разница между медийными форматами
Существует объективная разница между различными медийными форматами, которые создают предпосылки для определения отдельных функций для некоторых форматов. Например, в ток-шоу или других видео- и аудиоформатах можно попытаться анализировать голоса людей и измерять их громкость (ведь мы помним, что пропаганда любит нагнетать, давить на эмоции – и именно поэтому в политических ток-шоу так много кричат). Некоторые же форматы анализировать автоматически вообще довольно трудно. Например, видеоновости, ведь даже человек не всегда сможет распознать манипуляцию в репортаже (поэтому я бы вывел золотое правило – «не доверяй монтированному видео – только первоисточникам, данным без комментариев»).
Во всём остальном же я не склонен видеть разницу в форматах. То есть, она, конечно, есть. Например, в телеграм-каналах оценочные суждения встречаются через слово – в этом зачастую их «соль», в то время, как в новостных материалах серьёзной редакции они будут неуместны за пределами прямых цитат. Но эта разница несущественна для пользователя, ведь наша цель – научить его распознавать манипуляции, а когда он научится, то он сможет и без нашего плагина понимать разницу форматов и выбирать приемлемую для себя подачу информации.
Заключение
Закончить материал хотелось бы несколькими важными замечаниями.

Цель плагина – это повысить осознанность людей при прочтении новостей, научить их определять манипуляции через выразительные и другие средства.
Делать это я хочу через как можно более формализованные правила. Конечно, формализовать можно далеко не всё, и очень часто мы распознаём пропаганду, что называется, «в комплексе».
Плагин можно расширять. Например, можно создать целую систему оценки СМИ и даже отдельных журналистов, блогеров и авторов вообще (например, авторов постов в Telegram). То есть, каждый пользователь плагина сможет оценивать СМИ или автора, и эти оценки будут агрегироваться в некое подобие рейтинга для СМИ и авторов. Но это всё потом.

===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_open_source, #_data_mining, #_rasshirenija_dlja_brauzerov (Расширения для браузеров), #_natural_language_processing, #_propaganda (пропаганда), #_propaganda_nasilija (пропаганда насилия), #_media (медиа), #_open_source, #_data_mining, #_rasshirenija_dlja_brauzerov (
Расширения для браузеров
), #_natural_language_processing

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 18-Июн 22:19
Часовой пояс: UTC + 5

[Open source, Data Mining, Расширения для браузеров, Natural Language Processing] Предлагаю подумать: как технологии могут помочь бороться с пропагандой в СМИ?

Для особо интересующихся&#58; какие есть основные признаки пропаганды?

Для особо интересующихся: какие есть основные признаки пропаганды?