Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader® Engine. Многофункциональный OCR SDK для разработчиков

Полный набор технологий распознавания

ContentReader® Engine — это полный набор технологий, которые позволяют распознавать печатный текст (OCR), рукопечатный текст (ICR) и штрихкоды (OBR). OCR поддерживает максимальное число языков распознавания, которые можно комбинировать. Ниже представлен список доступных технологий и варианты обработки документов.

Режимы распознавания

Выбирайте режим распознавания, чтобы настраивать скорость и точность обработки. Пользователям доступны Normal, Fast и Balanced режимы OCR и ICR-распознавания.

  • Режим распознавания Normal

    Наиболее точный режим для наилучшего качества распознавания. Рекомендован, если распознаваемая информация в дальнейшем будет использоваться для других целей или качество распознавания играет первостепенную роль.

  • Режим распознавания Fast

    Предназначен для обработки больших объемов документов, когда приоритетной является скорость распознавания. Этот режим позволяет увеличить скорость обработки на 200−250%.

  • Режим распознавания Balanced

    Устанавливает промежуточные значения параметров скорости и качества распознавания по сравнению с режимами Normal и Fast.

Полнотекстовое и зональное распознавание

Существуют два типа распознавания – полнотекстовое и зональное.

Полнотекстовое распознавание
Это базовый режим распознавания для самых разных задач, таких как:
  • Оцифровка книг и распознавание документов для архивного хранения.
  • Конвертация документов для переиспользования контента.
  • Распознавание опорного текста для определения полей и классификации документов.
Все эти задачи подразумевают распознавание всего текста на странице. Полученный текст может экспортироваться в виде простого текста или как готовый документ в заданном формате.
Зональное распознавание
ContentReader® Engine поддерживает распознавание на уровне областей (зональное распознавание), необходимое в таких бизнес-процессах, как ввод форм, классификация по ключевым словам, машинное зрение и роботизированная автоматизация процессов (RPA). К основным функциям относятся многоязыковое распознавание печатного (OCR) и рукопечатного текста (ICR) и штрихкодов (OBR), а также целый ряд специальных возможностей, например:
  • Распознавание информации из полей, ограниченных различными рамками
  • Распознавание с применением преднастроенного алфавита, словарей, регулярных выражений, стилей рукописного текста и т. д.
  • Обнаружение пробелов внутри полей
  • Интеллектуальная обработка блоков информации с пересекающимися частями и линиями
  • Удаление «мусора» из текстовых блоков с возможностью задавать размеры черных или белых точек.
Зональное распознавание также поддерживают специальные инструменты для разработчиков, среди которых Voting API и On-the-Fly Recognition Tuning.
В таблице указаны особенности использования каждого типа распознавания:
Пользовательские языки и эталоны
ContentReader® Engine предоставляет API для создания и редактирования языков распознавания, создания копий уже заданных языков распознавания и их дальнейшего редактирования, добавления новых слов в пользовательские языки. В большинстве случаев ContentReader® Engine может успешно распознавать текст без предварительного обучения. Тем не менее, чтобы повысить качество распознавания декоративных и контурных шрифтов, может потребоваться обучение пользовательским эталонам.


Варианты применения:
    • Чтобы повысить качество ICR-распознавания, рекомендуется использовать пользовательский язык, содержащий все возможные варианты значений, которые могут быть введены в то или иное поле (почтовые индексы, товарные коды и т.д.
    • Чтобы повысить качество распознавания товарных кодов, номеров телефона и паспортных данных, создайте новый язык распознавания, чтобы программа могла считать конкретный тип данных
Закажите эффективное решение
Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.