[Python, Swift, Искусственный интеллект] О том как мы научили машину определять пол человека по его почерку
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя рукописи и т. д.). В качестве примера можно привести подобные программные комплексы: «Прогноз», «POL», «Тюльпан», «ДИА», «Прост», «Рабочее место эксперта-почерковеда» и так далее.Однако не будем углубляться в историю…Для того, чтобы приступить к решению столь нетривиальной задачи, необходимо познакомиться поближе с объектом исследования (самим почерком), с уже известными методиками его исследования и с историей применения кибернетических методов в данной области.Для начала кратко разберем понятие почерк:Почерк - это зафиксированная в рукописи система привычных движений, в основе которой лежит письменно двигательный навык.В свою очередь, он имеет следующие основные свойства:
- Индивидуальность. Под этим свойством понимается характерные особенности почерка, его своеобразие и неповторимость у разных лиц. Индивидуальность обусловлена воздействием субъективных (выступающих в виде индивидуальных психических, физиологических, анатомических особенностей человека) и объективных (влияние внешней среды) факторов взаимодействующих между собой в процессе формирования письменно двигательного навыка и практики письма;
- Избирательная изменчивость - отражает способность письменно двигательного функционального динамического комплекса специфическим образом видоизменяться (в зависимости от от воздействия на него наиболее сильных внешних или внутренних сбивающих факторов);
- Временная изменчивость почерка (возможность изменения письменно двигательного функционального динамического комплекса видоизменяться в зависимости от возраста);
- Типологическое своеобразие.
Разобрав свойства почерка становится понятно, что учесть всю вариационность отображения письменных знаков невозможно, в следствии воздействия на них многих факторов. Однако мы не учли свойство динамической устойчивости, которое означает способность к сохранению совокупности действий и операций, обозначающих специфическую структуру функционального динамического комплекса, их стандартность, стабильность во времени и по отношению к внешним и внутренним сбивающим факторам. То есть, есть определенный набор признаков, корый устойчив к изменению и несет за собой нужную нам информацию? Да! Как раз то, что нам нужно!Но как понять устойчив ли тот или иной признак?Все просто, чем чаще он повторяется, тем устойчивей признак. Как раз такие признаки мы и будем в основном использовать.Но что мы понимаем под понятием признака?Если мы обратимся к общей теории почерковедения, то можно выделить 3 основные группы признаков:
- Общие (относительное размещение текста, форма линий письма, наклон, разгон, размер и степень связанности почерка, нажим и так далее);
- Диагностические. Разделяются на: - Признаки снижения координации первой и второй группы (извилистость движений при выполнении и соединении прямолинейных элементов письменных знаков, Несогласованность движений при выполнении и соединении письменных знаков, степень выраженности признаков, извилистая и ступенчатая форма письма, неравномерное направление линии письма и так далее),- Признаки замедленного темпа письма (большой или сверхбольшой размер почерка, преобладание усложненных и сложных вариантов букв, наличие тупых начал и окончаний движений и так далее)- Специфические диагностические признаки (зеркальность движений, выполнение букв по типу печатных и так далее);
- Частные. Делятся на:- Сложность движения при выполнении,- Форма движений при выполнении,- Направление движений при выполнении,- Протяженность при выполнении,- Количество движений при выполнении- Вид движений при выполнении,- Последовательность движений при выполнении,- Относительное размещения;
Фактически данными признаками можно описать любой почерк, а при наличии 18 устойчивых признаков и идентифицировать исполнителя. Однако в данном случае перед нами стоит классификационно-диагностическая задача (определение пола исполнителя), а не идентификационная.Узнав какие признаки существуют, нужно выделить устойчивые признаки, которые тем или иным образом могут быть связанны с полом исполнителя рукописи. К счастью мы можем подсмотреть в уже существующую методику дифференциации рукописей на мужские и женские по высоковыработанным почеркам, основанная на вероятностном моделировании (см. Судебно-почерковедческая экспертиза Ч 2, М., ВНИИСЭ, 1971г., с. 223-236) (P. S. это не единственная методика подобного рода). В данной методике изложены 208 признаков почерка с различными коэффициентами. Проще говоря, находим в тексте как можно больше перечисленных в методике признаков, суммируем их коэффициент и получаем определенную величину, по которой мы с определенной долей вероятности можем определить пол исполнителя рукописи.Да, хоть мы и привязываемся на начальном этапе к уже существующей методике, это не значит, что мы не можем ее доработать, автоматически проанализировав больший объем данных.Теперь мы знаем, что нужно искать машине (признаки), чтобы классифицировать исходный материал и решить нашу задачу.Для решения мы будем использовать Keras и CoreML для удобного использования.Начнем со сбора данных!В качестве примера мы будем разбирать задачу нахождения и классификации второго элемента строчной буквы «а» по форме движения при выполнения (петлевая и угловатая форма движения).
Однако при сборе данных мы будем учитывать вариационность. При сборе данных для определения второго элемента строчной буквы «а», нам важно учитывать только второй элемент и только форму движения. По-этому добавим некоторые изображения с искажениями, чтобы наша сеть учла исключительно нужные нам факторы (не путать с приемом расширения данных).
Пробную архитектуру возьмем VGG19, а суммарный объем данных 1400 изображений.Результатом обучения стала 92% точность определения признака.По аналогии проделываем тоже самое и с остальными признаками. А обучение и интеграция обученных весов в приложение по аналогии со статей, которую я опубликовал ранее.
Далее при нахождении необходимого нами признака складываем коэффициенты из методики и получаем результат.В ходе всех проведенных мероприятий, мы получили точность определения пола человека по почерку более 79%, однако все зависит от количества написанного исполнителем текста.Таким образом, мы кратко разобрали лишь один модуль современного программного комплекса «Фрося», который, в свою очередь, нацелен на осуществление помощи эксперту-почерковеду в производстве судебно-почерковедческих экспертиз.
Рабочая область программного компелкса «Фрося»Список источников и литературы
- Судебно-почерковедческая экспертиза. Общая часть. Вып. I, II (Методическое пособие для экспертов, следователей, судей), М., ВНИИСЭ, 1988-1989.
- Почерковедение и почерковедческая экспертиза. Учебник / под ред. В. В. Серегина. Волгоград: ВА МВД России, 2012.
- Судебно-почерковедческая экспертиза. Особенная часть. Исследование рукописных текстов / под ред. В.Ф. Орловой. М., Наука, 2007.
- Аверьянова, Т.В. Судебная экспертиза: курс общей теории / Т.В. Аверьянова. – М.: Норма, 2006. – 479 с.
- Кошманов П.М. Компьютерные технологии в судебно-почерковедческой экспертизе: учеб, пособие / П.М. Кошманов. – Волгоград: ВА МВД России, 2008. – 72 с.: ил.
- Бобовкин М. В. Теория и практика судебно-диагностической экспертизы письма лиц, находящихся в психопатологическом состоянии. Диссертация доктора юридических наук. – Волгоград, 2005. – 466 с.
===========
Источник:
habr.com
===========
Похожие новости:
- [Тестирование IT-систем, PHP, Программирование] «Дело было вечером, делать было нечего» или краткая история о сравнении производительности языков программирования
- [Open source, Python, Интервью] Разработчик популярного веб-фреймворка FastAPI — об истории его создания и перспективах аннотаций типов Python (перевод)
- [Разработка веб-сайтов, Angular, Конференции, Микросервисы] От одного приложения — к сотне. Путь микрофронтенда в Тинькофф Бизнес
- [Python, Алгоритмы, Big Data, R, Data Engineering] Запросить 100 серверов нельзя оптимизировать код. Ставим запятую
- [Типографика, Алгоритмы, Обработка изображений, Машинное обучение, Искусственный интеллект] ИИ от Facebook воспроизводит почерк по фотографии одного слова
- [Open source, Виртуализация, GPGPU, Научно-популярное] На пути к Матрице: как происходит исследования в области построения симуляций и искуственной жизни (перевод)
- [Open source, PostgreSQL, NoSQL, Администрирование баз данных] А нужен ли Redis или хватит PostgreSQL (перевод)
- [PostgreSQL, SQL, Администрирование баз данных, Визуализация данных] Анализируем «слона» вместе с коллегами
- [Разработка под iOS] Apple StoreKit 2: круглый стол
- [Python] Локальный видеохостинг. Часть 0. Определяемся с правилами
Теги для поиска: #_python, #_swift, #_iskusstvennyj_intellekt (Искусственный интеллект), #_pocherkovedenie (Почерковедение), #_jurisprudentsija (юриспруденция), #_nejronnye_seti (нейронные сети), #_sudebnaja_ekspertiza (судебная экспертиза), #_prilozhenie (приложение), #_ios, #_keras, #_swift, #_web, #_tensor, #_python, #_swift, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 06:00
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя рукописи и т. д.). В качестве примера можно привести подобные программные комплексы: «Прогноз», «POL», «Тюльпан», «ДИА», «Прост», «Рабочее место эксперта-почерковеда» и так далее.Однако не будем углубляться в историю…Для того, чтобы приступить к решению столь нетривиальной задачи, необходимо познакомиться поближе с объектом исследования (самим почерком), с уже известными методиками его исследования и с историей применения кибернетических методов в данной области.Для начала кратко разберем понятие почерк:Почерк - это зафиксированная в рукописи система привычных движений, в основе которой лежит письменно двигательный навык.В свою очередь, он имеет следующие основные свойства:
Фактически данными признаками можно описать любой почерк, а при наличии 18 устойчивых признаков и идентифицировать исполнителя. Однако в данном случае перед нами стоит классификационно-диагностическая задача (определение пола исполнителя), а не идентификационная.Узнав какие признаки существуют, нужно выделить устойчивые признаки, которые тем или иным образом могут быть связанны с полом исполнителя рукописи. К счастью мы можем подсмотреть в уже существующую методику дифференциации рукописей на мужские и женские по высоковыработанным почеркам, основанная на вероятностном моделировании (см. Судебно-почерковедческая экспертиза Ч 2, М., ВНИИСЭ, 1971г., с. 223-236) (P. S. это не единственная методика подобного рода). В данной методике изложены 208 признаков почерка с различными коэффициентами. Проще говоря, находим в тексте как можно больше перечисленных в методике признаков, суммируем их коэффициент и получаем определенную величину, по которой мы с определенной долей вероятности можем определить пол исполнителя рукописи.Да, хоть мы и привязываемся на начальном этапе к уже существующей методике, это не значит, что мы не можем ее доработать, автоматически проанализировав больший объем данных.Теперь мы знаем, что нужно искать машине (признаки), чтобы классифицировать исходный материал и решить нашу задачу.Для решения мы будем использовать Keras и CoreML для удобного использования.Начнем со сбора данных!В качестве примера мы будем разбирать задачу нахождения и классификации второго элемента строчной буквы «а» по форме движения при выполнения (петлевая и угловатая форма движения). Однако при сборе данных мы будем учитывать вариационность. При сборе данных для определения второго элемента строчной буквы «а», нам важно учитывать только второй элемент и только форму движения. По-этому добавим некоторые изображения с искажениями, чтобы наша сеть учла исключительно нужные нам факторы (не путать с приемом расширения данных). Пробную архитектуру возьмем VGG19, а суммарный объем данных 1400 изображений.Результатом обучения стала 92% точность определения признака.По аналогии проделываем тоже самое и с остальными признаками. А обучение и интеграция обученных весов в приложение по аналогии со статей, которую я опубликовал ранее. Далее при нахождении необходимого нами признака складываем коэффициенты из методики и получаем результат.В ходе всех проведенных мероприятий, мы получили точность определения пола человека по почерку более 79%, однако все зависит от количества написанного исполнителем текста.Таким образом, мы кратко разобрали лишь один модуль современного программного комплекса «Фрося», который, в свою очередь, нацелен на осуществление помощи эксперту-почерковеду в производстве судебно-почерковедческих экспертиз. Рабочая область программного компелкса «Фрося»Список источников и литературы
=========== Источник: habr.com =========== Похожие новости:
Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 06:00
Часовой пояс: UTC + 5