Релиз системы распознавания текста Tesseract 5.1
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.
Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.
Основные улучшения в Tesseract 5.1:
- Реализована возможность обработки областей с изображениями и линиями при выводе в форматах ALTO, hOCR и text.
- Добавлен новый параметр curl_timeout lkz curl_easy_setop.
- Улучшена система сборки.
- Проведена работа по удалению неиспользуемого кода
- Устранены сбои, вызванные некорректной обработкой нулевых указателей в классе PageIterator::Orientation.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://github.com/tesseract-o...)
- OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.28
- OpenNews: Релиз системы распознавания текста Tesseract 5.0
- OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
- OpenNews: Новая система оптического распознавания текста EasyOCR
- OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
Похожие новости:
- Выпуск системы распознавания текста GNU Ocrad 0.28
- Релиз системы распознавания текста Tesseract 5.0
- [Python, PDF] Tesseract OCR, выделение распознанного текста на изображении
- [Python, Обработка изображений, Машинное обучение] Сервис распознавания капч, который больше не нужен
- [Программирование, Обработка изображений, Big Data, Машинное обучение] Помогите прочитать, что здесь написано? (OCR)
- [Python, Алгоритмы, Обработка изображений, Машинное обучение] Распознаем номера автомобилей. Разработка multihead-модели в Catalyst
- [Разработка мобильных приложений, Обработка изображений, Машинное обучение, Искусственный интеллект] Ученые компании Smart Engines окончательно решили задачу распознавания паспорта РФ
- [Информационная безопасность, Обработка изображений, Машинное обучение, Искусственный интеллект] Ковидная индустрия и системы распознавания
- [PHP, API, CRM-системы] Заметки по API Aliexpress. Экспорт заказов в Bitrix24, RetailCRM, amoCRM
- [Обработка изображений, Машинное обучение, Софт, Искусственный интеллект] Распознавание документов для целей ДБО
Теги для поиска: #_tesseract, #_ocr
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 26-Ноя 02:12
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Опубликован релиз системы оптического распознавания текста Tesseract 5.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0. Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1. Основные улучшения в Tesseract 5.1:
=========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 26-Ноя 02:12
Часовой пояс: UTC + 5