ContentReader Engine SDK
Быстрый вывод продуктов на рынок
Новые возможности ваших приложений
Добавляйте новые возможности при помощи ContentReader Engine, например, конвертацию TIFF-файлов в PDF, PDF/A, Word и другие форматы и максимально точно распознавайте информацию из определенных областей документа. Инструменты подходят для разработки приложений на Windows, Linux или Mac OS для развертывания в облаке и на виртуальных машинах.
Сценарии применения
Организация электронного архива, СЭД, сервисы по обработке информации
Конвертируйте документы в сжатые PDF или PDF/А с возможностью поиска, чтобы пользователи могли быстро и удобно находить нужную информацию.
Предотвращение утечек данных
Расширьте возможности DLP за счет автоматического распознавания сканов документов, фотографий и изображений, чтобы выявлять возможные случаи нарушений политики информационной безопасности.
Машинное зрение и автоматическое тестирование
Расширьте возможности системы машинного зрения. Распознавайте тексты на фотографиях, экранах, дисплеях, сенсорных устройствах и в информационно-развлекательных системах. Автоматизируйте тестирование и контроль качества.
Поиск, электронное обнаружение информации eDiscovery и анализ данных
Конвертируйте документы в электронные файлы с возможностью поиска и находите нужную информацию с помощью инструментов анализа данных.
Технологии для людей с ограниченными возможностями
Помогите людям с нарушением зрения и детям с трудностями в обучении находить информацию в документах, листовках, учебниках или на экранах при помощи функции зачитывания текста с устройства.
Документация
Полный спектр технологий распознавания
SDK позволяет использовать отмеченные многими наградами технологии полнотекстового и зонального распознавания печатного (OCR) и рукопечатного (ICR) текстов, а также распознавать штрихкоды (OBR).
Эффективные инструменты обработки PDF
Конвертируйте документы в PDF и PDF/A с возможностью поиска. При импортировании PDF можно добавлять текстовый слой с сохранением настроек файла. Извлекайте XML-данные из импортированных файлов в формате PDF/A-3 и добавляйте их при сохранении файлов в формате PDF/A-3.
Искусственный интеллект и машинное обучение
Многоядерные процессоры и параллельная обработка
Поддержка облачных технологий и виртуальной среды
Развернуть приложения можно не только на компьютере, но и в виртуальной среде или на облачной платформе, например, Microsoft Azure или Amazon Web Services.
Передовые возможности предобработки изображений
Точность распознавания можно повысить за счет предобработки и оптимизации изображений перед началом OCR-процесса. Выравнивание, изменение поворота, коррекция искажения, выпрямление строк, разделение на страницы, адаптивная бинаризация, шумопонижение и не только — все это позволяет распознавать изображения даже низкого качества.
Профили распознавания для быстрого внедрения
В предопределенных профилях обработки содержатся необходимые параметры, позволяющие быстро и точно распознавать текст в рамках определенных повторяющихся задач. Они также помогают ускорить процесс разработки и исключить необходимость настраивать систему вручную.
Готовое решение для распознавания визитных карточек и MRZ
BCR API и MRZ API позволяют распознавать визитные карточки и машинно-считываемых зоны (MRZ) в документах, удостоверяющих личность, загранпаспортах или визах. Они обеспечивают доступ к значениям отдельных полей с минимальными затратами на программирование.
Классификация документов с помощью технологий машинного обучения и обработки естественного языка
Компоненты пользовательского интерфейса
Используйте визуальные компоненты на базе ActiveX, чтобы свободно интегрировать пользовательский интерфейс в приложения, например, ERP, ECM, и предоставьте пользователям возможность проверять документы, просматривать результаты распознавания и редактировать текст прямо в приложении.
Библиотека примеров кода
Обширный набор примеров кода содержит инструкции по применению OCR SDK, примеры работы технологии и может быть использован для разработки решений. В каждом разделе библиотеки содержатся фрагменты кода и руководство по выполнению определенных задач.
Подробная документация и поддержка
Подробная документация помогает оптимизировать процесс интеграции. Есть вопросы?
На протяжении всего срока действия пробной версии пользователи могут свободно обращаться в техническую поддержку.
Сравнение документов
* Некоторые возможности могут быть недоступны в зависимости от операционной системы.
Оптическое распознавание символов проходит в несколько этапов — от импортирования изображений до получения результатов распознавания.
Изображения можно загружать в OCR SDK из различных источников. Тексты в виде изображений в форматах TIFF, JPEG, и документы в формате PDF и т. д. можно импортировать, а сфотографированный текст или отсканированные документы могут быть обработаны прямо из памяти.
Предварительная обработка
На этапе предварительной обработки происходит улучшение изображения. Для повышения качества распознавания OCR SDK применяет ряд функций, среди которых поворот, бинаризация, выравнивание и многие другие.
В OCR SDK используются алгоритмы на основе искусственного интеллекта и технологии адаптивного распознавания документов ADRT®, что позволяет анализировать оформление каждой страницы и структуру документа в целом. В ходе этого процесса определяются блоки для распознавания текста, а информация об оформлении и форматировании отправляется на итоговую стадию воссоздания документа.
ContentReader Engine максимально точно распознает печатный (OCR) и рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). Дополнительно повысить точность распознавания разных языков, нетипичных символов и шрифтов можно за счет создания словарей и шаблонов.
OCR SDK предлагает разные уровни воссоздания документа и различные способы экспорта результатов распознавания. Благодаря OCR SDK вы можете сохранять документы в следующих форматах: текстовый, XML, PDF и PDF/A, документы Microsoft® Office с возможностью редактирования и многих других.
ContentReader Engine 12 доступен в двух версиях:
для Windows и для Linux
Системные требования
Content AI SDK 12 Licensing Service (системные требования)
Поддерживаемые среды разработки
ContentReader Engine для Windows предоставляет API, который соответствует COM-стандарту и может легко использоваться из C/C++, Visual Basic, .NET, Delphi, Java, а также из любых других средах разработки с поддержкой компонент COM. Engine может быть адаптирован для использования со скриптовыми языками, например, VBS, JS, или Perl.
Поддерживаемые среды разработки
ContentReader Engine для Linux предоставляет нативный C/C++ API и Java-обертку для него, поэтому приложения должны быть написаны на C/C++ или Java.
Заголовки и тексты диалогов, сообщения об ошибках и другие сообщения программы могут выводиться на английском, болгарском, чешском, китайском (КНР и Тайвань), датском, голландском, эстонском, французском, немецком, греческом, венгерском, итальянском, японском, корейском, польском, португальском (Бразилия), русском, словацком, испанском, шведском, турецком, и украинском.
ПОДДЕРЖИВАЕТ ОТКРЫТИЕ:
BMP
BMP
DCX
DjVu (только для Windows)
GIF
JBIG2
JPEG
JPEG 2000
PCX
Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG
TIFF
TIFF
WDP (только для Windows)
WIC-compatible (только для Windows)
ПОДДЕРЖИВАЕТ СОХРАНЕНИЕ
BMP
DCX
JBIG2
JPEG
JPEG 2000
PCX
Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG
TIFF