Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader® Engine. Многофункциональный OCR SDK для разработчиков
ContentReader® Engine SDK
Многофункциональный инструментарий разработчика, который позволяет встраивать в приложения интеллектуальные технологии распознавания данных. С помощью OCR на основе технологий искусственного интеллекта вы можете создавать приложения с функциями качественного распознавания информации из документов, изображений, фотографий, скриншотов, мониторов и дисплеев, определения типа документа, конвертации сканированных документов в файлы форматов Word, Excel и PDF с возможностью поиска.
  • файнридер энджин

    Быстрый вывод продуктов на рынок

    Получите конкурентное преимущество и быстро выводите новые решения на рынок с лучшими OCR-технологиями, которые легко встроить благодаря подробной сопроводительной документации, предварительно настроенным инструментам, параметрам, примерам кода и прочих компонентам.

  • ContentReader Engine

    Новые возможности ваших приложений

    Добавляйте новые возможности при помощи ContentReader® Engine, например, конвертацию TIFF-файлов в PDF, PDF/A, Word и другие форматы и максимально точно распознавайте информацию из определенных областей документа. Инструменты подходят для разработки приложений на Windows и Linux для развертывания в облаке и на виртуальных машинах.

  • Высокая точность распознавания

    Ваши клиенты смогут легко и точно распознавать данные с с помощью ContentReader® Engine. Нашим OCR-технологиям доверяют ведущие поставщики ECM-систем, решений по оцифровке документов, RPA-решений, производители сканеров и многофункциональных устройств.

Сценарии применения

Организация электронного архива, СЭД, сервисы по обработке информации
Конвертируйте документы в сжатые PDF или PDF/А с возможностью поиска, чтобы пользователи могли быстро и удобно находить нужную информацию.

Предотвращение утечек данных
Расширьте возможности DLP за счет автоматического распознавания сканов документов, фотографий и изображений, чтобы выявлять возможные случаи нарушений политики информационной безопасности.

Машинное зрение и автоматическое тестирование
Расширьте возможности системы машинного зрения. Распознавайте тексты на фотографиях, экранах, дисплеях, сенсорных устройствах и в информационно-развлекательных системах. Автоматизируйте тестирование и контроль качества.

Поиск, электронное обнаружение информации eDiscovery и анализ данных
Конвертируйте документы в электронные файлы с возможностью поиска и находите нужную информацию с помощью инструментов анализа данных.

Технологии для людей с ограниченными возможностями
Помогите людям с нарушением зрения и детям с трудностями в обучении находить информацию в документах, листовках, учебниках или на экранах при помощи функции зачитывания текста с устройства.

Документация

Возможности

ContentReader® Engine — это передовые возможности для разработки приложений для Windows и Linux.
  • Полный спектр технологий распознавания
    SDK позволяет использовать отмеченные многими наградами технологии полнотекстового и зонального распознавания печатного (OCR) и рукопечатного (ICR) текстов, а также распознавать штрихкоды (OBR).
  • Эффективные инструменты обработки PDF
    Конвертируйте документы в PDF и PDF/A с возможностью поиска. При импортировании PDF можно добавлять текстовый слой с сохранением настроек файла. Извлекайте XML-данные из импортированных файлов в формате PDF/A-3 и добавляйте их при сохранении файлов в формате PDF/A-3.
  • Искусственный интеллект и машинное обучение
    Эффективные технологии с элементами искусственного интеллекта и машинного обучения в сочетании с ADRT-технологиями позволяют определять логическую структуру и форматирование документа, например, таблицы, колонтитулы и шрифты, чтобы с высокой точностью воссоздать исходный документ.
  • Многоядерные процессоры и параллельная обработка
    Воспользуйтесь гибкой и масштабируемой архитектурой ContentReader® Engine для обработки большого числа страниц, например, при распознавании большого потока документов, книг или архивов. Распознавание проходит значительно быстрее за счет поддержки многоядерных процессоров и параллельной обработки в нескольких потоках.
  • Поддержка облачных технологий и виртуальной среды
    Развернуть приложения можно не только на компьютере, но и в виртуальной среде или на облачной платформе, например, Microsoft Azure или Amazon Web Services.
  • Передовые возможности предобработки изображений
    Точность распознавания можно повысить за счет предобработки и оптимизации изображений перед началом OCR-процесса. Выравнивание, изменение поворота, коррекция искажения, выпрямление строк, разделение на страницы, адаптивная бинаризация, шумопонижение и не только — все это позволяет распознавать изображения даже низкого качества.
  • Профили распознавания для быстрого внедрения
    В предопределенных профилях обработки содержатся необходимые параметры, позволяющие быстро и точно распознавать текст в рамках определенных повторяющихся задач. Они также помогают ускорить процесс разработки и исключить необходимость настраивать систему вручную.
  • Готовое решение для распознавания визитных карточек и MRZ
    BCR API и MRZ API позволяют распознавать визитные карточки и машинно-считываемых зоны (MRZ) в документах, удостоверяющих личность, загранпаспортах или визах. Они обеспечивают доступ к значениям отдельных полей с минимальными затратами на программирование.
  • Классификация документов с помощью технологий машинного обучения и обработки естественного языка
    В передовых алгоритмах классификации ContentReader® Engine используются технологии машинного обучения, оптического распознавания символов и обработки естественного языка, что позволяет качественно определять типы документов.
  • Компоненты пользовательского интерфейса
    Используйте визуальные компоненты на базе ActiveX, чтобы свободно интегрировать пользовательский интерфейс в приложения, например, ERP, ECM, и предоставьте пользователям возможность проверять документы, просматривать результаты распознавания и редактировать текст прямо в приложении.
  • Библиотека примеров кода
    Обширный набор примеров кода содержит инструкции по применению OCR SDK, примеры работы технологии и может быть использован для разработки решений. В каждом разделе библиотеки содержатся фрагменты кода и руководство по выполнению определенных задач.
  • Подробная документация и поддержка
    Подробная документация помогает оптимизировать процесс интеграции. Есть вопросы?
    На протяжении всего срока действия пробной версии пользователи могут свободно обращаться в техническую поддержку.
  • Сравнение документов
    ContentReader® Engine позволяет сравнить две версии одного документа и найти в них различия. При этом документы могут быть в различных форматах, например, Microsoft Word, PDF, TIFF, JPEG и других.

* Некоторые возможности могут быть недоступны в зависимости от операционной системы.

Как работает OCR

Оптическое распознавание символов проходит в несколько этапов — от импортирования изображений до получения результатов распознавания.

1

Импортирование изображений

Изображения можно загружать в OCR SDK из различных источников. Тексты в виде изображений в форматах TIFF, JPEG, и документы в формате PDF и т. д. можно импортировать, а сфотографированный текст или отсканированные документы могут быть обработаны прямо из памяти.

2

Предварительная обработка

На этапе предварительной обработки происходит улучшение изображения. Для повышения качества распознавания OCR SDK применяет ряд функций, среди которых поворот, бинаризация, выравнивание и многие другие.

3

Анализ документа

В OCR SDK используются алгоритмы на основе искусственного интеллекта и технологии адаптивного распознавания документов ADRT®, что позволяет анализировать оформление каждой страницы и структуру документа в целом. В ходе этого процесса определяются блоки для распознавания текста, а информация об оформлении и форматировании отправляется на итоговую стадию воссоздания документа.

4

Распознавание

ContentReader® Engine максимально точно распознает печатный (OCR) и рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). Дополнительно повысить точность распознавания разных языков, нетипичных символов и шрифтов можно за счет создания словарей и шаблонов.

5
Воссоздание документа и экспорт результатов

OCR SDK предлагает разные уровни воссоздания документа и различные способы экспорта результатов распознавания. Благодаря OCR SDK вы можете сохранять документы в следующих форматах: текстовый, XML, PDF и PDF/A, документы Microsoft® Office с возможностью редактирования и многих других.

Спецификация

ContentReader® Engine 12 доступен в двух версиях:

для Windows и для Linux

Системные требования

Форматы и языки
Закажите эффективное решение
Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.

Информация о стоимости решения

Стоимость ПО рассчитывается индивидуально в зависимости от объемов обрабатываемой информации и других параметров решения.
С апреля 2022 года техническую поддержу продуктов ABBYY на территории России оказывает компания Content AI (ООО «Контент ИИ»).