[Обработка изображений, Машинное обучение, Искусственный интеллект] Как нормально распознавать бухгалтерские документы

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
02-Июн-2021 15:31


Бухгалтерские документы, пожалуй, для всех распознавальщиков находятся на особом счету. Именно этот класс документов представляет особый вызов системам автоматического ввода данных. Почему? Во-первых, документы сложные: мелкий шрифт, большое количество таблиц, вставок. Во-вторых, такие документы всегда сопровождаются печатями, подписями и прочими «радостями» делопроизводства. В-третьих, таких бумаг в любой компании просто много – всегда есть, что распознавать. С завидной периодичностью выходят новые инновационные продукты, которые «решают» проблему ввода данных с бухгалтерских документов. Высоконагруженные сервера, распределённые системы распознавания данных, RPA, роботизированные сервисы… Предложений много, а задача все еще актуальна. Почему?Если честно, только та система распознавания данных нужна, которая решает поставленную задачу: а) надежно, б) качественно, в) быстро и конечно без «слива данных» на сторону. При внедрении действительно полезной системы распознавания, которая решит поставленную проблему (если, конечно, проблема заключалась не в «освоить заданный бюджет») компромиссов быть не может. Одинаково важны все три характеристики. В подтверждение этих слов, давайте просто посмотрим на несколько успешных и неуспешных кейсов применения систем распознавания.
  • Распознавание штрихкодов отлично работает и используется везде. И речь не только об одномерных штрихкодах, которыми маркируются все товары, но и о двумерных (QR, AZTEC, DataMatrix и т. п.), которые облегчают нам налоговые платежи, переход по интересным ссылками и т. п. Мы настолько привыкли к системам распознавания штрихкодов, что уже даже перестали относиться к ним не столько как к системам распознавания, а трактуем их как простой и удобный способ ввода данных.
  • Распознавание лиц, как бы опасно оно ни было с точки зрения потенциального мошенничества, начало использоваться в промышленном масштабе только тогда, когда действительно стало работать быстро и надежно.
  • Распознавание паспортов и банковских карт стало уже «must have» для всех банковских приложений и сервисов по продаже билетов, позволяя точно и за секунду оформить услугу. Даже моя бабушка на своем простеньком Android’e перестала вводить реквизиты своего рукописного, кстати, паспорта.
  • Распознавание голоса до сих пор остается очередной забавной игрушкой в умных девайсах (колонках, часах и прочих гаджетах).
  • Распознавание элементов дорожного движения. Иногда кажется, что ключевое достижение в этой области распознавания – это «ездить по ушам» потребителей, рассказывая про уникальные беспилотные транспортные средства, которые вот-вот появятся на всех дорогах нашей страны. По факту я сажусь в Volvo, BMW или Kia (нужную подчеркнуть), с полным комплектом умной электроники и первым делом выключаю весь этот неработающий «фарш», где даже дорожные знаки распознаются криво.
  • Распознавание бухгалтерских документов. Есть на витрине каждого вендора систем распознавания. Не установлена от слова «совсем» у большинства потребителей.
Нас, конечно, в этом списке сегодня интересует последний пункт. Что же не хватает для успешного распознавания документов? В каждом существующем на сегодняшний день продукте распознавания бухгалтерских документов не хватает одного из трех указанных в самом начале статьи необходимых качеств промышленной распознающей системы. Давайте порассуждаем о бизнес-кейсах, для каких целей применяется система распознавания бухгалтерских документов.
  • Планомерный ввод бухгалтерских документов в бэк-офисе и занесение распознанных данных в учетные системы.
  • Обработка и анализ документов в режиме онлайн.
В обоих случаях производится ввод данных, но при этом есть принципиальные отличия. В первом кейсе возможно обеспечить практически любого уровня входные изображения (хоть сканы 600 DPI). Также не предъявляется жестких требований ко времени и способу обработки данных. Успешное решение данной задачи встречается за счет использования имеющихся систем распознавания и сервисов ввода данных (конечно, если вам без разницы, сколько денег потратить на оборудование, сервисы и зарплату сотрудников, обслуживающих такую «автоматизацию»). Кстати, именно первый кейс обеспечивает те единицы клиентов, которые «успешно», любой ценой, решили проблему автоматизации ввода бухгалтерских документов.Рассмотрим теперь второй кейс. В качестве примера представим себе логистический склад, где водитель-экспедитор в соответствии с УПД или ТОРГ-12 передает кладовщику под ответственное хранение весь товар. Какое оборудование, помимо шариковой ручки, в такие моменты под рукой? Максимум – терминал сбора данных или какой-то планшет.Еще пример. Выездной сотрудник (аудитор), который работает, фактически, на территории клиента. Согласитесь, в условиях такой «полевой» работы каждая минута на счету (вспомним, сколько стоит рабочее время таких выездных сотрудников), что задает высокую планку для допустимого времени распознавания. А сколько стоит ошибка при воде данных из важных бухгалтерских документов?Мы в Smart Engines долго не выпускали на рынок систему распознавания бухгалтерских документов. Не хотелось предлагать полуфабрикат. Мы собирали технологическую базу: занимались развитием технологии поиска документа на изображении, построили уникальную подсистему обучения сверточных нейронных сетей, позволившую нам обучать, например, биполярные нейроны, и много всего другого, что пригодилось для системы распознавания бухгалтерских документов.Smart Document Engine автоматически извлекает данные из типовых форм документов, форм строгой отчетности, первичных бухгалтерских, финансовых, налоговых, юридических, нотариальных и других документов, используемых в документообороте, различных тестов и опросников, на сканах и фотографиях.Извините, данный ресурс не поддреживается. :( Система позволяет автоматически обрабатывать одно- и многостраничные документы с фиксированным положением реквизитов, документы с плавающим расположением блоков и реквизитов, неструктурированные текстовые документы и блоки, таблицы, надписи или даже отдельные строки и метки.Smart Document Engine дополнительно позволяет проверять документы на соблюдение формальностей: есть ли подпись, печать или логотип, правильного ли они цвета, находятся ли они в нужном месте документа, и проверять, что надписи, которые должны быть сделаны от руки, действительно рукописные.С архитектурной точки зрения система Smart Document Engine получилась настолько универсальна, что мы пока не встретили еще ни одной задачи распознавания документов, которая не «ложилась» бы естественным образом на разработанный API, будь то товарные чеки или даже справки о результатах COVID-19.Извините, данный ресурс не поддреживается. :( Извините, данный ресурс не поддреживается. :( На этом все. Пользуйтесь на здоровье и распознавайте бухгалтерские документы нормально.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_obrabotka_izobrazhenij (Обработка изображений), #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_smart_engines, #_avtomatizatsija (автоматизация), #_raspoznavanie_dokumentov (распознавание документов), #_iskusstvennyj_intellekt (искусственный интеллект), #_mashinnoe_obuchenie (машинное обучение), #_sistemy_raspoznavanija (системы распознавания), #_blog_kompanii_smart_engines (
Блог компании Smart Engines
)
, #_obrabotka_izobrazhenij (
Обработка изображений
)
, #_mashinnoe_obuchenie (
Машинное обучение
)
, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 08:03
Часовой пояс: UTC + 5