Быстрый вывод продуктов на рынок
Получите конкурентное преимущество и быстро выводите новые решения на рынок с уникальными OCR-технологиями, которые легко встроить благодаря подробной сопроводительной документации, предварительно настроенным инструментам, параметрам, примерам кода и прочих компонентам.
Новые возможности ваших приложений
Добавляйте новые возможности при помощи ContentReader® Engine, например, конвертацию TIFF-файлов в PDF, PDF/A, Word и другие форматы и максимально точно распознавайте информацию из определенных областей документа. Инструменты подходят для разработки приложений на Windows и Linux для развертывания в облаке и на виртуальных машинах.
Высокая точность распознавания
Ваши клиенты смогут легко и точно распознавать данные с с помощью ContentReader® Engine. Нашим OCR-технологиям доверяют ведущие поставщики ECM-систем, решений по оцифровке документов, RPA-решений, производители сканеров и многофункциональных устройств.
* Некоторые возможности могут быть недоступны в зависимости от операционной системы.
Оптическое распознавание символов проходит в несколько этапов — от импортирования изображений до получения результатов распознавания.
Импортирование изображений
Изображения можно загружать в OCR SDK из различных источников. Тексты в виде изображений в форматах TIFF, JPEG, и документы в формате PDF и т. д. можно импортировать, а сфотографированный текст или отсканированные документы могут быть обработаны прямо из памяти.
Предварительная обработка
На этапе предварительной обработки происходит улучшение изображения. Для повышения качества распознавания OCR SDK применяет ряд функций, среди которых поворот, бинаризация, выравнивание и многие другие.
Анализ документа
В OCR SDK используются алгоритмы на основе искусственного интеллекта и технологии адаптивного распознавания документов ADRT®, что позволяет анализировать оформление каждой страницы и структуру документа в целом. В ходе этого процесса определяются блоки для распознавания текста, а информация об оформлении и форматировании отправляется на итоговую стадию воссоздания документа.
Распознавание
ContentReader® Engine максимально точно распознает печатный (OCR) и рукопечатный текст (ICR), метки (OMR) и штрихкоды (OBR). Дополнительно повысить точность распознавания разных языков, нетипичных символов и шрифтов можно за счет создания словарей и шаблонов.
OCR SDK предлагает разные уровни воссоздания документа и различные способы экспорта результатов распознавания. Благодаря OCR SDK вы можете сохранять документы в следующих форматах: текстовый, XML, PDF и PDF/A, документы Microsoft® Office с возможностью редактирования и многих других.
ContentReader® Engine 12 доступен в двух версиях:
для Windows и для Linux
Системные требования
Content AI SDK 12 Licensing Service (системные требования)
Поддерживаемые среды разработки
ContentReader Engine для Windows предоставляет API, который соответствует COM-стандарту и может легко использоваться из C/C++, Visual Basic, .NET, Delphi, Java, а также из любых других средах разработки с поддержкой компонент COM. Engine может быть адаптирован для использования со скриптовыми языками, например, VBS, JS, или Perl.
Поддерживаемые среды разработки
ContentReader Engine для Linux предоставляет нативный C/C++ API и Java-обертку для него, поэтому приложения должны быть написаны на C/C++ или Java.
ContentReader Engine 12 поддерживает самое большое количество языков распознавания на рынке. С его помощью можно распознавать языки, в письменности которых используются латиница, кириллица, греческие и армянские символы, а также арабский, бирманский (техническое превью), персидский (фарси), иврит, китайский, японский, корейский, русский языки и много других. Также доступна встроенная утилита для создания пользовательских словарей и шаблонов, что позволяет улучшить распознавания необычных слов или нетипичных шрифтов.
Кроме того, SDK подерживает обработку документов XVII-XIX столетий на английском, испанском, итальянском, немецком и французском языках, текстов на искусственных языках (эсперанто, интерлингва, идо и окциденталь), а также позволяет распознавать языки программирования (Basic, C/C++, COBOL, Fortran, JAVA и Pascal), простые химические формулы и цифры. В общей сложности, в ContentReader Engine поддержано 210 OCR, для Windows и Linux 126 ICR языков (●) и 55 со словарной поддержкой (○) (* Арабский ICR не поддерживается. Но распознаются арабские цифры, отпечатанные вручную):
--Начало блока--
Абхазский
Аварский
Агульский
Адыгейский
Азербайджанский (кириллица)
Азербайджанский (латиница)●
Аймара●
Албанский●
Алтайский
Английский●○
Арабский (Саудовская Аравия)*●○
Армянский (восточный)○
Армянский (грабарь)○
Армянский (западный)○
Африкаанс●
Базовый язык программирования
Баскский●
Башкирский○
Белорусский
Бемба●
Бирманский (технический превью)
Блэкфут●
Болгарский●○
Бретонский●
Буготу●
Бурятский●
Валлийский
Венгерский●○
Волоф●
Вьетнамский○
Гавайский●
Гагаузский
Галисийский●
Ганда●
Голландский (Бельгия)●○
Голландский (Нидерланды)●○
Греческий●○
Грузинский
Гуарани●
Дакота (сиу)●
Даргинский
Датский●○
Дунганский
Зулу
Иврит○
Идиш
Идо●
Ингушский
Индонезийский●○
Интерлингва●
Ирландский●
Исландский
Испанский●○
Итальянский●○
Кабардинский
Казахский●
Калмыцкий
Каракалпакский
Карачаево-балкарский●
Каталонский○
Кашубский●
Кечуа●
Кикуйю
Киргизский●
Китайский традиционный
Китайский упрощенный
Конго●
Корейский (хангыль)○
Корейский○
Корсиканский●
Корякский
Коса●
Кпелле●
Кроу●
Крымскотатарский●
Кумыкский●
Курдский●
Лакский
Латинский●○
Латышский●○
Латышский отический
Лезгинский
Литовский●○
Луба●
Лужицкий
Майя●
Македонский
Малагасийский●
Малайский (малазийский)
Малинке●
Мальтийский
Мансийский
Маори●
Марийский
Минангкабау●
Могавк●
Монгольский●
Мордовский●
Мяо●
Науатль●
Немецкий (Люксембург)●
Немецкий (новая орфография)●○
Немецкий●○
Ненецкий●
Нивхский●
Ногайский●
Норвежский (букмол)●○
Норвежский (нюнорск)●○
Норвежский●○
Ньянджа●
Оджибве●
Окциденталь
Осетинский
Папьяменто●
Польский●○
Португальский (Бразилия)●○
Португальский (Португалия)●○
Провансальский
Простые математические формулы
Простые химические формулы
Ретороманский●
Руанда●
Румынский (Молдавия)●
Румынский●○
Рунди●
Русский (старая орфография)○
Русский●○
Русский (с ударениями)○
Саамский●
Самоа●
Сапотекский●
Свази●
Себуанский●
Селькупский●
Сербский (кириллица)●
Сербский (латинский)●
Сесото●
Словацкий●○
Словенский●○
Сомалийский●
Староанглийский●○
Староиспанский●○
Староитальянский●○
Старонемецкий●○
Старославянский
Старофранцузский●○
Суахили●
Сунданский
Табасаранский
Тагальский●
Таджикский●
Таитянский●
Тайский○
Татарский○
Текст типа ocr-a
Текст типа ocr-b
Ток писин●
Тонга●
Тсвана●
Тувинский●
Тунисский●
Турецкий●○
Туркменский
Туркменский (латинский)●
Удмуртский
Узбекский (кириллица)
Узбекский (латинский)●
Уйгурский (кириллица)
Уйгурский (латинский)●
Украинский●○
Фарерский
Фарси○
Фиджийский●
Финский●○
Французский●○
Фризский●
Фриульский●
Хакасский
Хани●
Хантыйский
Хауса
Хорватский●○
Цзинпо
Цыганский●
Чаморро●
Чеченский
Чешский●○
Числовые символы●
Чувашский
Чукотский
Шведский●○
Шона
Шотландский гэльский●
Шрифт micr (cmc-7)
Шрифт micr (e-13b)
Эвенкийский●
Эвенский●
Эскимосский (кириллица)
Эскимосский (латинский)
Эсперанто
Эстонский●○
Язык программирования c / c ++
Язык программирования Cobol
Язык программирования Fortran
Язык программирования Java
Язык программирования Kawa●
Язык программирования Pascal
Якутский
Японский (современный)○
Японский○
Заголовки и тексты диалогов, сообщения об ошибках и другие сообщения программы могут выводиться на:
--Начало блока--
английском
болгарском
чешском
китайском (КНР и Тайвань)
датском
голландском
эстонском
французском
немецком
греческом
венгерском
итальянском
японском
корейском
польском
португальском (Бразилия)
русском
словацком
испанском
шведском
турецком
украинском
ПОДДЕРЖИВАЕТ ОТКРЫТИЕ:
BMP
BMP
DCX
DjVu (только для Windows)
GIF
JBIG2
JPEG
JPEG 2000
PCX
Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG
TIFF
TIFF
WDP (только для Windows)
WIC-compatible (только для Windows)
ПОДДЕРЖИВАЕТ СОХРАНЕНИЕ
BMP
DCX
JBIG2
JPEG
JPEG 2000
PCX
Изображение PDF (скан PDF)
Созданный в цифровом виде PDF (Версия 1.7 или ранее)
PNG
TIFF
Информация о стоимости решения