Поддержка

Партнеры

Компания

Решение для обработки документов, удостоверяющих личность

Для разработчиков

Сравнение документов ContentReader^® Engine

Автоматическое сравнение документов для снижения рисков подписания некорректных версий

Многофункциональный OCR SDK для разработчиков

ContentReader^® Engine

Intelligent Search

Для бизнеса

Серверное решение для распознавания и конвертации документов

ContentReader^® Server

ContentCapture^®

Удобный инструмент для просмотра PDF-документов

ContentReader^®PDF Lite

Для персонального использования

Многофункциональный редактор PDF

ИИ-ассистенты на основе поисковых технологий

PassportReader 2.0

ContentReader^® PDF для офиса

ContentReader^® PDF для дома

Распознавание документов и роботизация процессов в единой платформе

Редактор PDF-документов с ИИ-ассистентом и функцией сравнения и автораспознавания

Для ритейла

Оптимизация операционных процессов с помощью автоматической обработки документов

Оптимизация затрат на операционную деятельность: обработка показаний приборов, другое

Для энергетики

Кросс-индустриальные

Автоматизация ключевых бизнес-процессов: обработка первичных документов, извлечение данных из документов

Автоматизация обработки различных документов на промышленных предприятиях

Для промышленности

Для банков

Автоматизация обработки основных финансовых документов: открытие счета, обработка кредитных заявок, другое

Оптимизация оцифровки, электронные архивы, обработка бланков и анкет, другое

Для госсектора

Истории успеха

Клиенты

О нас

О компании Content AI

Центр компетенций

Онлайн-курсы от экспертов Content AI

Пресс-релизы и интервью, информация для СМИ

Новости

Наша команда

Руководство и менеджмент

Вакансии в Content AI

Карьера

Российские вендоры ПО

Технологическое сотрудничество

Партнерский портал

Перейти во внутренний портал для наших партнеров. Стать партнером

Наши партнеры

Дистрибьюторы, партнеры по массовым и корпоративным продуктам

Справочная информация о продуктах Content AI

Онлайн-справка

База знаний

Ответы на частые вопросы пользователей

Техническая поддержка

Отправить запрос в техническую поддержку

Магазин

Консультация

Content AI — российский разработчик решений в области интеллектуальной обработки информации.

Имеет статус программного продукта, относящегося к сфере искусственного интеллекта в Реестре отечественного ПО

Многофункциональный OCR SDK для разработчиков.
Реестровая запись № 17 111 от 24.03.2023

Консультация

Запросить пробную версию

Используйте технологии оптического распознавания символов (OCR) с элементами искусственного интеллекта.

ContentReader^® Engine

Главная / ContentReader® Engine

ContentReader^® Engine SDK

Многофункциональный инструментарий разработчика, который позволяет встраивать в приложения интеллектуальные технологии распознавания данных.

С помощью OCR на основе технологий искусственного интеллекта вы можете создавать приложения с функциями качественного распознавания документов, изображений, фотографий, классификации документов, сохранение сканированных документов в файлы форматов Word, Excel и PDF с возможностью поиска.

Быстрый вывод продуктов на рынок

Получите конкурентное преимущество и быстро выводите новые решения на рынок с уникальными OCR-технологиями, которые легко встроить благодаря подробной сопроводительной документации, предварительно настроенным инструментам, параметрам, примерам кода и прочих компонентам.

Новые возможности ваших приложений

Добавляйте новые возможности при помощи ContentReader^® Engine, например, конвертацию TIFF-файлов в PDF, PDF/A, Word и другие форматы и максимально точно распознавайте информацию из определенных областей документа. Инструменты подходят для разработки приложений на Windows и Linux для развёртывания в облаке и на виртуальных машинах.

Высокая точность распознавания

Ваши клиенты смогут легко и точно распознавать данные с помощью ContentReader® Engine. Нашим OCR-технологиям доверяют ведущие поставщики ECM-систем, решений по оцифровке документов, RPA-решений, производители сканеров и многофункциональных устройств.

Применение в решениях

■

Организация электронного архива, СЭД, сервисы по обработке информации

Конвертируйте документы в сжатые PDF или PDF/А с возможностью поиска, чтобы пользователи могли быстро и удобно находить нужную информацию.
■■

Предотвращение утечек данных

Расширьте возможности предотвращения утечки данных (DLP) за счет распознавания сканов документов, фотографий и изображений, чтобы выявлять возможные случаи нарушений политики информационной безопасности.
■■■

Тестирование и контроль качества работы приборов

Расширьте возможности системы машинного зрения. Распознавайте тексты на фотографиях экранов, дисплеев, сенсорных устройств и других приборов. Автоматизируйте тестирование и контроль качества работы приборов.
■■■■

Электронное обнаружение информации и анализ данных

Конвертируйте документы в электронные файлы и находите нужную информацию с помощью инструментов анализа данных.

Возможности

ContentReader^® Engine — это передовые возможности для разработки приложений для Windows и Linux.

Полный спектр технологий распознавания

SDK позволяет использовать отмеченные многими наградами технологии полнотекстового и зонального распознавания печатного (OCR) и рукопечатного (ICR) текстов, а также распознавать штрихкоды (OBR).

Подробнее
Эффективные инструменты обработки PDF

Конвертируйте документы в PDF и PDF/A с возможностью поиска. При импортировании PDF можно добавлять текстовый слой с сохранением настроек файла. Извлекайте XML-данные из импортированных файлов в формате PDF/A-3 и добавляйте их при сохранении файлов в формате PDF/A-3.

Подробнее
Искусственный интеллект и машинное обучение

Эффективные технологии с элементами искусственного интеллекта и машинного обучения в сочетании с ADRT-технологиями позволяют определять логическую структуру и форматирование документа, например, таблицы, колонтитулы и шрифты, чтобы с высокой точностью воссоздать исходный документ.

Подробнее
Многоядерные процессоры и параллельная обработка

Конвертируйте документы в PDF и PDF/A с возможностью поиска. При импортировании PDF можно добавлять текстовый слой с сохранением настроек файла. Извлекайте XML-данные из импортированных файлов в формате PDF/A-3 и добавляйте их при сохранении файлов в формате PDF/A-3.

Подробнее
Передовые возможности предобработки изображений

Точность распознавания можно повысить за счет предобработки и оптимизации изображений перед началом OCR-процесса. Выравнивание, изменение поворота, коррекция искажения, выпрямление строк, разделение на страницы, адаптивная бинаризация, шумопонижение и не только — все это позволяет распознавать изображения даже низкого качества.

Подробнее
Профили распознавания для быстрого внедрения

В предопределенных профилях обработки содержатся необходимые параметры, позволяющие быстро и точно распознавать текст в рамках определённых повторяющихся задач. Они также помогают ускорить процесс разработки и исключить необходимость настраивать систему вручную.

Подробнее
Готовое решение для распознавания визитных карточек и MRZ

BCR API и MRZ API позволяют распознавать визитные карточки и машинно-считываемых зоны (MRZ) в документах, удостоверяющих личность, загранпаспортах или визах. Они обеспечивают доступ к значениям отдельных полей с минимальными затратами на программирование.

Подробнее
Классификация документов с помощью технологий машинного обучения и обработки естественного языка

В передовых алгоритмах классификации ContentReader^® Engine используются технологии машинного обучения, оптического распознавания символов и обработки естественного языка, что позволяет качественно определять типы документов.

Подробнее
Библиотека примеров кода

Обширный набор примеров кода содержит инструкции по применению OCR SDK, примеры работы технологии и может быть использован для разработки решений. В каждом разделе библиотеки содержатся фрагменты кода и руководство по выполнению определенных задач.

Подробнее
Подробная документация и поддержка

Подробная документация помогает оптимизировать процесс интеграции. Есть вопросы? На протяжении всего срока действия пробной версии пользователи могут свободно обращаться в техническую поддержку.

Подробнее
Сравнение документов

ContentReader® Engine позволяет сравнить две версии одного документа и найти в них различия. При этом документы могут быть в различных форматах, например, Microsoft Word, PDF, TIFF, JPEG и других.

Подробнее

* Некоторые возможности могут быть недоступны в зависимости от операционной системы.

Как работает OCR

Оптическое распознавание символов проходит в несколько этапов — от импортирования изображений до получения результатов распознавания.

Импортирование изображений ⁰¹

Изображения можно загружать в OCR SDK из различных источников. Тексты в виде изображений в форматах TIFF, JPEG, и документы в формате PDF и т. д. можно импортировать, а сфотографированный текст или отсканированные документы могут быть обработаны прямо из памяти.
Предварительная обработка ⁰²

На этапе предварительной обработки происходит улучшение изображения. Для повышения качества распознавания OCR SDK применяет ряд функций, среди которых поворот, бинаризация, выравнивание и многие другие.
Анализ документа ⁰³

В OCR SDK используются алгоритмы на основе искусственного интеллекта и технологии адаптивного распознавания документов ADRT^®, что позволяет анализировать оформление каждой страницы и структуру документа в целом. В ходе этого процесса определяются блоки для распознавания текста, а информация об оформлении и форматировании отправляется на итоговую стадию воссоздания документа.
Распознавание ⁰⁴

ContentReader^® Engine максимально точно распознает печатный (OCR) и рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). Дополнительно повысить точность распознавания разных языков, нетипичных символов и шрифтов можно за счет создания словарей и шаблонов.
Воссоздание документа и экспорт результатов ⁰⁵

OCR SDK предлагает разные уровни воссоздания документа и различные способы экспорта результатов распознавания. Благодаря OCR SDK вы можете сохранять документы в следующих форматах: текстовый, XML, PDF и PDF/A, документы Microsoft^® Office с возможностью редактирования и многих других.

Новости

Спецификация

Системные требования

Компьютер
ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше).

Операционная система

Windows 11
Windows 10
Windows Server 2022
Windows Server 2019
Windows Server 2016
Windows Server 2012 R2 with the April 2014 update rollup (KB2919355)
Windows Server 2012
Windows 8.1 with the April 2014 update rollup (KB2919355)

Протестированные платформы облачных вычислений и виртуальные среды

Amazon EC2
Microsoft Hyper-V Server 2012
Microsoft Hyper-V Server 2012 R2
Microsoft Hyper-V Server 2016
Oracle VM VirtualBox 6.1.32
Parallels Desktop for Mac 16.1.3
VMware ESXi 6.7
VMware Workstation Player 16.2.3
VMware Workstation Pro 16.2.2

Протестированные среды разработки Java
Решение ContentReader Engine было протестировано на следующих наборах разработчика Java:

для 32-битных операционных систем:

Oracle Java SE Development Kit 8u331×86

для 64-битных операционных систем:

Open JDK 17.0.2×64
Open JDK 18.0.1×64
Oracle Java SE Development Kit 8u331×64
Oracle Java SE Development Kit 11.0.15 (LTS) x64
Oracle Java SE Development Kit 17.0.3×64
Oracle Java SE Development Kit 18.0.1×64

ContentReader Engine также может использоваться в Docker-контейнерах на поддерживаемых платформах.

Память

для обработки одностраничных документов: минимум 400 МБ ОЗУ, рекомендуется 1 ГБ;
для обработки многостраничных документов: минимум 1 ГБ ОЗУ, рекомендуется 1,5 ГБ;
для параллельной обработки: 350 МБ * (количество ядер) + 450 МБ ОЗУ;
для параллельной обработки документов на арабском или CJK языках: 850 МБ * (количество ядер) + 750 МБ ОЗУ.

Место на жестком диске

1.600 МБ для установки библиотек (функционал ядра)
Дополнительные 400 МБ для установки библиотеки модулей OfficeConverters
100 МБ для работы программы
Дополнительные 15 МБ на каждую страницу при обработке многостраничного документа

Другие требования

Полностью TWAIN-совместимый сканер, цифровая фотокамера или факс-модем — только для функции сканирования.
Видеокарта и монитор с минимальным разрешением 1024×768 — для обучения шаблонов, редактирования словарей и сканирования при помощи графического пользовательского интерфейса).
Microsoft Internet Explorer 8.0 или выше. Для правильного детектирования содержащихся в документах шрифтов, они должны быть установлены на компьютере.

Content AI SDK 12 Licensing Service (системные требования)

Поддерживаемые среды разработки

ContentReader Engine для Windows предоставляет API, который соответствует COM-стандарту и может легко использоваться из C/C++, Visual Basic, .NET, Delphi, Java, а также из любых других средах разработки с поддержкой компонент COM. Engine может быть адаптирован для использования со скриптовыми языками, например, VBS, JS, или Perl.

ContentReader Engine требует наличия библиотеки glibc версии 2.27 и выше. Если необходим ContentReader Engine для более ранних версий glibc, свяжитесь с офисом Content AI.

Для использования динамической библиотеки ContentReader Engine необходимы стандартные библиотеки libstdc++.so.6, libgcc_s.so.1 и libgomp.so.1

Компьютер

ПК с x86-совместимым процессором (с тактовой частотой 1 ГГц и выше) и с поддержкой SSE и SSE 2.

Операционная система:

Astra Linux SE 1.7
Astra Linux SE 1.8
ALT Linux 10.1, 10.0, 9.2 (software protection only)
RED OS 7.3
RED OS 8.0
Fedora 35, 34, 33
Red Hat Enterprise Linux 8.5, 7.9
SUSE Linux Enterprise Server 15 SP3, 12 SP5, 11 SP4
Debian GNU/Linux 11.3, 10.12, 9.13
Ubuntu 22.04, 21.04, 20.04, 18.04, 16.04
CentOS 8.5, 7.9

Компания Content AI также предоставляет услугу профессиональной адаптации ПО для других платформ.

Протестированные платформы облачных вычислений и виртуальные среды

Amazon EC2
Microsoft Hyper-V Server 2012 R2
Microsoft Hyper-V Server 2016
Oracle VM VirtualBox 6.1.32
VMware ESXi 6.7
VMware Workstation Player 16.2.3
VMware Workstation Pro 16.2.2
Linux KVM

ContentReader Engine также может использоваться в Docker-контейнерах на поддерживаемых платформах.
ContentReader Engine Java wrapper был протестирован в следующих Java Development Kits:

OpenJDK 17.0.2×64
OpenJDK 18.0.1×64
Oracle Java SE Development Kit 8u331×64
Oracle Java SE Development Kit 11.0.15 (LTS) x64
Oracle Java SE Development Kit 17.0.3×64
Oracle Java SE Development Kit 18.0.1×64

Память

для обработки одностраничных документов: минимум 400 МБ ОЗУ, рекомендуется 1 ГБ
для обработки многостраничных документов: минимум 1 ГБ ОЗУ, рекомендуется 1,5 ГБ
для параллельной обработки: 350 МБ * (количество ядер) + 450 МБ ОЗУ
для параллельной обработки документов на арабском или CJK языках: 850 МБ * (количество ядер) + 750 МБ ОЗУ

Место на жестком диске

2200 МБ для установки библиотек и 150 МБ для работы программы, а также дополнительно 15 МБ для каждой обрабатываемой страницы многостраничного документа.

Другие требования

Объем tmpfs: 1ГБ*(количество ядер) + 4ГБ
Объем swap: 1ГБ*(количество ядер) + 4ГБ
ContentReader<sup>®</sup> Engine совместим с системой инициализации systemd.
Для правильного детектирования содержащихся в документах шрифтов, они должны быть установлены на компьютере.

Поддерживаемые среды разработки
ContentReader Engine для Linux предоставляет нативный C/C++ API и Java-обертку для него, поэтому приложения должны быть написаны на C/C++ или Java.

Форматы и языки

ContentReader Engine 12 поддерживает самое большое количество языков распознавания на рынке. С его помощью можно распознавать языки, в письменности которых используются латиница, кириллица, греческие и армянские символы, а также арабский, бирманский (техническое превью), персидский (фарси), иврит, китайский, японский, корейский, русский языки и много других. Также доступна встроенная утилита для создания пользовательских словарей и шаблонов, что позволяет улучшить распознавания необычных слов или нетипичных шрифтов.

Кроме того, SDK подерживает обработку документов XVII-XIX столетий на английском, испанском, итальянском, немецком и французском языках, текстов на искусственных языках (эсперанто, интерлингва, идо и окциденталь), а также позволяет распознавать языки программирования (Basic, C/C++, COBOL, Fortran, JAVA и Pascal), простые химические формулы и цифры. В общей сложности, в ContentReader Engine поддержано 210 OCR, для Windows и Linux 126 ICR языков (●) и 55 со словарной поддержкой (○) (* Арабский ICR не поддерживается. Но распознаются арабские цифры, отпечатанные вручную):

Абхазский
Аварский
Агульский
Адыгейский
Азербайджанский (кириллица)
Азербайджанский (латиница)●
Аймара●
Албанский●
Алтайский
Английский●○
Арабский (Саудовская Аравия)*●○
Армянский (восточный)○
Армянский (грабарь)○
Армянский (западный)○
Африкаанс●
Базовый язык программирования
Баскский●
Башкирский○
Белорусский
Бемба●
Бирманский (технический превью)
Блэкфут●
Показать ещё

Поддерживает открытие:
BMP

несжатый черно-белый
4- и 8-битный — несжатый Palette
16-битный — несжатый, несжатый Mask
24-битный — несжатый
32-битный — несжатый, несжатый Mask

BMP

4- и 8- битный — RLE сжатый Palette

DCX

черно-белый
2-, 4- и 8- битный Palette
24- битный цветной

DjVu (только для Windows)

черно-белый, серый, цветной

GIF

черно-белый — LZW-сжатый
2-, 3-, 4-, 5-, 6-, 7-, 8-битный Palette — LZW-сжатый

JBIG2

черно-белый

JPEG

серый, цветной

JPEG 2000

серый — Part 1
цветной — Part 1

PCX

черно-белый
2-, 4- и 8-битный Palette
24- битный цветной

Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG

черно-белый, серый, цветной

TIFF

черно-белый — несжатый, CCITT3, CCITT4, Packbits, ZIP, LZW
серый — несжатый, Packbits, JPEG, ZIP, LZW
24-битный цветной — несжатый, JPEG, ZIP, LZW
1-, 4-, 8-битный Palette — несжатый, Packbits, ZIP, LZW
(включая многостраничный TIFF)

TIFF

черно-белый — CCITT3FAX

WDP (только для Windows)

черно-белый, серый, цветной
(требуется WIC или Microsoft .NET Framework 3.0)

WIC-compatible (только для Windows)

(требуется WIC или Microsoft .NET Framework 3.0)

Поддерживает сохранение:
BMP

несжатый черно-белый
4- и 8-битный — несжатый Palette
16-битный — несжатый, несжатый Mask
24-битный — несжатый
32-битный — несжатый, несжатый Mask

DCX

черно-белый
2-, 4- и 8- битный Palette
24- битный цветной

JBIG2

черно-белый

JPEG

серый, цветной

JPEG 2000

серый — Part 1
цветной — Part 1

PCX

черно-белый
2-, 4- и 8-битный Palette
24- битный цветной

Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG

черно-белый, серый, цветной

TIFF

черно-белый — несжатый, CCITT3, CCITT4, Packbits, ZIP, LZW
серый — несжатый, Packbits, JPEG, ZIP, LZW
24-битный цветной — несжатый, JPEG, ZIP, LZW
1-, 4-, 8-битный Palette — несжатый, Packbits, ZIP, LZW
(включая многостраничный TIFF)

Информация о стоимости решения

Право использования продукта предоставляется на основании лицензионного договора через партнерскую сеть (по ссылке https://contentai.ru/partners). Компания не осуществляет прямые продажи программного обеспечения конечным пользователям. Стоимость лицензии рассчитывается индивидуально в зависимости от объемов обрабатываемой информации и других параметров решения, и предоставляется после консультации. Актуальные прайс-листы и условия предоставления лицензий размещаются в закрытом разделе партнерского портала и доступны только авторизованным партнерам после входа в систему (по ссылке https://contentai.ru/members/).

Минимальная стоимость* - 600 000 руб. в год.

*Минимальная стоимость представлена РРЦ / рекомендованная рыночная цена, фактические цены продажи конечным пользователям зависят от ценовой политики авторизованных партнеров и используемых каналов продаж.