[Типографика, Accessibility, История IT, Natural Language Processing] Загадочные субтитры на CNN
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Зрители CNN обратили внимание, что в выпуске новостей 12/11/2020 на их официальном YouTube-канале вместо субтитров какая-то каша из обрывков английских слов, сплошным капсом:
Как такое могло получиться? (По состоянию на 1/12/2020, субтитры на YouTube так и не исправлены.)
Stenotype
Американские стенографисты уже больше сотни лет как используют специальные устройства с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец, чтобы минимизировать движения кистей:
Сто лет назад стенотайп был вариантом печатной машинки, и каждая клавиша оставляла оттиск на бумаге. Каретки не было: после каждого «аккорда» из одной или нескольких одновременно нажатых клавиш, бумага проматывалась на одну строчку вниз. Оттиск каждой литеры приходился всегда на одно и то же место в строке. Клавиши P, R, S, T присутствуют в двух экземплярах каждая — под левой и под правой рукой.
Каждый «аккорд», и каждая строчка в распечатке, соответствует одному слогу. Промежутков между словами нет, а сами слова передаются фонетически: на показанной выше распечатке застенографирована фраза «You should be able to read these short words». Поскольку клавиш меньше, чем букв в английском алфавите, и тем более — чем звуков в английской речи, то используется хитроумная система «кодирования», например [n] записывается как PB, [l] — как HR, дифтонг [eɪ] — как AEU, и т.п. При таком кодировании, например, слово gleam записывается как TKPWHRAOEPL — «аккорд» из одиннадцати одновременно нажатых клавиш!
Пример отрывка стенограммы судебного заседания
SPL
После заседания стенографист должен был сидеть и перепечатывать свою стенограмму на обычной печатной машинке, потому что прочесть её неподготовленному человеку решительно невозможно. В приведённом примере фраза «absolutely one hundred percent» записана как SHRAOUT HRAOE WOPB HUPBD PERS, что означает [sljuːtliː wɒn hʌnd pɛrs] — пропущенные слоги должны восстанавливаться по контексту, а гласные не вполне соответствуют словарной транскрипции. Существуют разные системы обозначений и сокращений, так что даже самим стенографистам сложно читать записи один другого. Вот короткий отрывок из учебника стенографии, исправленного владельцем под другую систему:
Считается, что средний темп английской речи — 130 слов в минуту, а стенографист со стенотайпом может печатать до 300 слов в минуту, что позволяет записывать разговор даже тогда, когда собеседники перебивают друг друга. Есть аналогичная система Velotype, ориентированная на побуквенную запись вместо фонетической; она позволяет печатать до 200 слов в минуту. Разница вызвана тем, что в английских словах почти всегда букв больше, чем звуков — иногда вдвое, как в словах choose [tʃuːz] или earth [ɜːθ]. Велотайп был создан в 1939, когда расцвели табуляторы и автоматическая обработка данных; мотивацией для побуквенной записи была более простая расшифровка стенограмм, которую можно было бы поручить даже электромеханической машине. Вместе с прочей оргтехникой электрифицировались и сами стенографические машины: вместо механически соединённых клавиш и литер, печатающих на бумаге, с конца прошлого века используется электроника, удобные дисплеи, цифровое хранение и обработка стенограмм.
В начале этого века возможности компьютерной обработки естественных языков достигли того уровня, чтобы автоматически расшифровывать стенотайповые фонетические стенограммы и превращать «SHRAOUT HRAOE» в «absolutely». Затем поддержка лиц с ограниченными возможностями достигла того уровня, чтобы телеканалы сопровождали прямой эфир субтитрами в реальном времени для тех, кому читать проще, чем слушать. Это значит, что за эфиром следит стенографист со стенотайпом, он записывает речь диктора и других участников передачи, его компьютер расшифровывает стенограмму, при необходимости — автоматически переводит её на язык целевой аудитории, и передаёт получившийся текст в эфир и на YouTube.
Судя по всему, 12/11/2020 у CNN в этой сложной системе что-то засбоило, и вывод расшифровщика перемешался с кусками нерасшифрованной стенограммы. Даже если они во время передачи и обнаружили сбой, то решили ничего не трогать, чтобы не отломалось что-нибудь более важное. Случай на Fox News в 2013 наделал гораздо больше шума: в тот раз расшифровщик не справился с именем Джохара Царнаева, устроившего взрыв на Бостонском марафоне, и подставил вместо него в субтитры имя актрисы Зоуи Дешанель.
===========
Источник:
habr.com
===========
Похожие новости:
- [Графический дизайн, История IT, Софт, Презентации] История презентаций: эпоха до появления Powerpoint (часть 1)
- [Управление продуктом, Производство и разработка электроники, История IT, Процессоры] Крушение Intel состоялось
- [Машинное обучение, Искусственный интеллект, Игры и игровые приставки, Natural Language Processing] Учим AI Dungeon говорить по-русски
- [Google Chrome, Accessibility] 5 accessibility инструментов в Chrome DevTools
- [Робототехника, История IT, Научно-популярное, Старое железо] Электро, умнейший робот Всемирной выставки 1939 года (перевод)
- [Программирование, История IT] Еще немного истории — на этот раз копаемся в OS/360
- [Стандарты связи, История IT, IT-компании] «Синяя коробка» — устройство, с которого начался бизнес Возняка и Джобса (перевод)
- [Типографика] Стилевые особенности барокко в типографике
- [История IT, Социальные сети и сообщества] Как Джон Макафи разработал одну из первых социальных сетей (перевод)
- [Python, GitHub, Машинное обучение, Читальный зал, Natural Language Processing] Ваш pet-project будет доволен. Как вдохнуть жизнь в свои наработки
Теги для поиска: #_tipografika (Типографика), #_accessibility, #_istorija_it (История IT), #_natural_language_processing, #_stenografija (стенография), #_stenotype, #_velotype, #_cnn, #_fox_news, #_computer_aided_transcription, #_tipografika (
Типографика
), #_accessibility, #_istorija_it (
История IT
), #_natural_language_processing
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 14:18
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Зрители CNN обратили внимание, что в выпуске новостей 12/11/2020 на их официальном YouTube-канале вместо субтитров какая-то каша из обрывков английских слов, сплошным капсом: Как такое могло получиться? (По состоянию на 1/12/2020, субтитры на YouTube так и не исправлены.) Stenotype Американские стенографисты уже больше сотни лет как используют специальные устройства с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец, чтобы минимизировать движения кистей: Сто лет назад стенотайп был вариантом печатной машинки, и каждая клавиша оставляла оттиск на бумаге. Каретки не было: после каждого «аккорда» из одной или нескольких одновременно нажатых клавиш, бумага проматывалась на одну строчку вниз. Оттиск каждой литеры приходился всегда на одно и то же место в строке. Клавиши P, R, S, T присутствуют в двух экземплярах каждая — под левой и под правой рукой. Каждый «аккорд», и каждая строчка в распечатке, соответствует одному слогу. Промежутков между словами нет, а сами слова передаются фонетически: на показанной выше распечатке застенографирована фраза «You should be able to read these short words». Поскольку клавиш меньше, чем букв в английском алфавите, и тем более — чем звуков в английской речи, то используется хитроумная система «кодирования», например [n] записывается как PB, [l] — как HR, дифтонг [eɪ] — как AEU, и т.п. При таком кодировании, например, слово gleam записывается как TKPWHRAOEPL — «аккорд» из одиннадцати одновременно нажатых клавиш! Пример отрывка стенограммы судебного заседанияSPLПосле заседания стенографист должен был сидеть и перепечатывать свою стенограмму на обычной печатной машинке, потому что прочесть её неподготовленному человеку решительно невозможно. В приведённом примере фраза «absolutely one hundred percent» записана как SHRAOUT HRAOE WOPB HUPBD PERS, что означает [sljuːtliː wɒn hʌnd pɛrs] — пропущенные слоги должны восстанавливаться по контексту, а гласные не вполне соответствуют словарной транскрипции. Существуют разные системы обозначений и сокращений, так что даже самим стенографистам сложно читать записи один другого. Вот короткий отрывок из учебника стенографии, исправленного владельцем под другую систему: Считается, что средний темп английской речи — 130 слов в минуту, а стенографист со стенотайпом может печатать до 300 слов в минуту, что позволяет записывать разговор даже тогда, когда собеседники перебивают друг друга. Есть аналогичная система Velotype, ориентированная на побуквенную запись вместо фонетической; она позволяет печатать до 200 слов в минуту. Разница вызвана тем, что в английских словах почти всегда букв больше, чем звуков — иногда вдвое, как в словах choose [tʃuːz] или earth [ɜːθ]. Велотайп был создан в 1939, когда расцвели табуляторы и автоматическая обработка данных; мотивацией для побуквенной записи была более простая расшифровка стенограмм, которую можно было бы поручить даже электромеханической машине. Вместе с прочей оргтехникой электрифицировались и сами стенографические машины: вместо механически соединённых клавиш и литер, печатающих на бумаге, с конца прошлого века используется электроника, удобные дисплеи, цифровое хранение и обработка стенограмм. В начале этого века возможности компьютерной обработки естественных языков достигли того уровня, чтобы автоматически расшифровывать стенотайповые фонетические стенограммы и превращать «SHRAOUT HRAOE» в «absolutely». Затем поддержка лиц с ограниченными возможностями достигла того уровня, чтобы телеканалы сопровождали прямой эфир субтитрами в реальном времени для тех, кому читать проще, чем слушать. Это значит, что за эфиром следит стенографист со стенотайпом, он записывает речь диктора и других участников передачи, его компьютер расшифровывает стенограмму, при необходимости — автоматически переводит её на язык целевой аудитории, и передаёт получившийся текст в эфир и на YouTube. Судя по всему, 12/11/2020 у CNN в этой сложной системе что-то засбоило, и вывод расшифровщика перемешался с кусками нерасшифрованной стенограммы. Даже если они во время передачи и обнаружили сбой, то решили ничего не трогать, чтобы не отломалось что-нибудь более важное. Случай на Fox News в 2013 наделал гораздо больше шума: в тот раз расшифровщик не справился с именем Джохара Царнаева, устроившего взрыв на Бостонском марафоне, и подставил вместо него в субтитры имя актрисы Зоуи Дешанель. =========== Источник: habr.com =========== Похожие новости:
Типографика ), #_accessibility, #_istorija_it ( История IT ), #_natural_language_processing |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 14:18
Часовой пояс: UTC + 5