Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader® Engine. Многофункциональный OCR SDK для разработчиков

Искусственный интеллект и машинное обучение для точного воссоздания документов и высокой точности распознавания

Для анализа оформления документов и оценки гипотез ContentReader® Engine использует алгоритмы на базе искусственного интеллекта, машинного обучения и адаптивной технологии распознавания документов Adaptive Document Recognition Technology (ADRT).
На этапе анализа документа программа разбивает его на отдельные страницы и проверяет оформление каждой из них, а именно, где расположен текст, изображения, штрихкоды и элементы таблиц. Параллельно проверяется логическая структура документа. Таким образом инструмент определяет роль текстовых элементов — например, колонтитулы определяются как колонтитулы, а не как фрагменты отдельных страниц.

Как ContentReader® Engine определяет логическую структуру документа

scheme
Информация о тексте, изображениях и элементах форматирования сохраняется и используется на этапе итогового воссоздания документа.
В результате получается точно воссозданный документ, например, в формате Word, с сохранением элементов форматирования, таких как таблицы, колонтитулы, номера страниц, сноски, содержание и многое другое.
Воссоздание документа: логическая структура, элементы и форматирование
Иерархическая структура заголовков
Заголовки для изображений/таблиц/диаграмм
Содержание
Верхние и нижние колонтитулы
Шрифты и стили шрифтов
Нумерация страниц
Сноски
Логическая последовательность текста
Воссоздание пунктов маркированного списка и нумерации
Сохранение гиперссылок

Закажите эффективное решение

Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.