Используйте OCR-технологии с элементами искусственного интеллекта

FineReader Engine. Многофункциональный OCR SDK для разработчиков

Полный набор технологий распознавания

FineReader Engine — это полный набор технологий, которые позволяют распознавать печатный текст (OCR), рукопечатный текст (ICR) и штрихкоды (OBR). OCR поддерживает максимальное число языков распознавания, которые можно комбинировать. Ниже представлен список доступных технологий и варианты обработки документов.

Распознавание печатного текста (OCR)

Технология доступна для более чем 200 языков:

  • Европейские языки: латиница, кириллица, армянский и греческий алфавиты
  • Другие языки: китайский, японский, корейский, арабский, фарси, тайский, вьетнамский, иврит, бирманский
  • FineReader XIX — для старых документов, книг и газет, напечатанных с 1600 по 1937 годы на английском, французском, немецком, итальянском и испанском языках старыми шрифтами, среди которых Fraktur, Schwabacher и Gothic
  • Распознавание шрифтов OCR-A, OCR-B, MICR (E13B) и CMC7 и документов, напечатанных на матричных принтерах или пишущих машинках
Распознавание рукопечатного текста (ICR)

Технология доступна для более чем 120 языков:

  • Европейские и другие языки
  • 22 региональных рукопечатных стиля
  • Распознавание рукопечатных символов в полях и рамках
  • Распознавание индийских цифр, используемых в арабских государствах

Возможно распознавание рукопечатной информации на разных языках одновременно (многоязычный ICR).

Распознавание штрихкодов (OBR)
  • Поддержка одномерных и двухмерных штрихкодов
  • Автоматическое определение и распознавание штрихкодов, расположенных на документе под любым углом

Режимы распознавания

Выбирайте режим распознавания, чтобы настраивать скорость и точность обработки. Пользователям доступны Normal, Fast и Balanced режимы OCR и ICR-распознавания.

Режим распознавания Normal

Наиболее точный режим для наилучшего качества распознавания. Рекомендован, если распознаваемая информация в дальнейшем будет использоваться для других целей или качество распознавания играет первостепенную роль.

Режим распознавания Fast

Предназначен для обработки больших объемов документов, когда приоритетной является скорость распознавания. Этот режим позволяет увеличить скорость обработки на 200-250%.

Режим распознавания Balanced

Устанавливает промежуточные значения параметров скорости и качества распознавания по сравнению с режимами Normal и Fast.



Полнотекстовое и зональное распознавание

Существуют два типа распознавания – полнотекстовое и зональное.

Полнотекстовое распознавание

Это базовый режим распознавания для самых разных задач, таких как:

  • Оцифровка книг и распознавание документов для архивного хранения.
  • Конвертация документов для переиспользования контента.
  • Распознавание опорного текста для определения полей и классификации документов.

Все эти задачи подразумевают распознавание всего текста на странице. Полученный текст может экспортироваться в виде простого текста или как готовый документ в заданном формате.

Зональное распознавание

FineReader Engine поддерживает распознавание на уровне областей (зональное распознавание), необходимое в таких бизнес-процессах, как ввод форм, классификация по ключевым словам, машинное зрение и роботизированная автоматизация процессов (RPA). К основным функциям относятся многоязыковое распознавание печатного (OCR) и рукопечатного текста (ICR) и штрихкодов (OBR), а также целый ряд специальных возможностей, например:

  • Распознавание информации из полей, ограниченных различными рамками
  • Распознавание с применением преднастроенного алфавита, словарей, регулярных выражений, стилей рукописного текста и т. д.
  • Обнаружение пробелов внутри полей
  • Интеллектуальная обработка блоков информации с пересекающимися частями и линиями
  • Удаление «мусора» из текстовых блоков с возможностью задавать размеры черных или белых точек.

Зональное распознавание также поддерживают специальные инструменты для разработчиков, среди которых Voting API и On-the-Fly Recognition Tuning.

В таблице указаны особенности использования каждого типа распознавания:

Пользовательские языки и эталоны

FineReader Engine предоставляет API для создания и редактирования языков распознавания, создания копий уже заданных языков распознавания и их дальнейшего редактирования, добавления новых слов в пользовательские языки. В большинстве случаев FineReader Engine может успешно распознавать текст без предварительного обучения. Тем не менее, чтобы повысить качество распознавания декоративных и контурных шрифтов, может потребоваться обучение пользовательским эталонам.


Варианты применения:



  • Чтобы повысить качество ICR-распознавания, рекомендуется использовать пользовательский язык, содержащий все возможные варианты значений, которые могут быть введены в то или иное поле (почтовые индексы, товарные коды и т.д.
  • Чтобы повысить качество распознавания товарных кодов, номеров телефона и паспортных данных, создайте новый язык распознавания, чтобы программа могла считать конкретный тип данных
Закажите эффективное решение
Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.

С апреля 2022 года работу со всеми клиентами и партнерами ABBYY Россия продолжит компания Content AI (ООО «Контент ИИ»).