Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader® Engine. Многофункциональный OCR SDK для разработчиков

Искусственный интеллект и машинное обучение для точного воссоздания документов и высокой точности распознавания

Для анализа оформления документов и оценки гипотез ContentReader® Engine использует алгоритмы на базе искусственного интеллекта, машинного обучения и адаптивной технологии распознавания документов Adaptive Document Recognition Technology (ADRT).
На этапе анализа документа программа разбивает его на отдельные страницы и проверяет оформление каждой из них, а именно, где расположен текст, изображения, штрихкоды и элементы таблиц. Параллельно проверяется логическая структура документа. Таким образом инструмент определяет роль текстовых элементов — например, колонтитулы определяются как колонтитулы, а не как фрагменты отдельных страниц.

Как ContentReader® Engine определяет логическую структуру документа

Информация о тексте, изображениях и элементах форматирования сохраняется и используется на этапе итогового воссоздания документа.
В результате получается точно воссозданный документ, например, в формате Word, с сохранением элементов форматирования, таких как таблицы, колонтитулы, номера страниц, сноски, содержание и многое другое.
Воссоздание документа: логическая структура, элементы и форматирование
  • Иерархическая структура заголовков
  • Заголовки для изображений/таблиц/диаграмм
  • Содержание
  • Верхние и нижние колонтитулы
  • Шрифты и стили шрифтов
  • Нумерация страниц
  • Сноски
  • Логическая последовательность текста
  • Воссоздание пунктов маркированного списка и нумерации
  • Сохранение гиперссылок

Закажите эффективное решение

Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.
С апреля 2022 года техническую поддержу продуктов ABBYY на территории России оказывает компания Content AI (ООО «Контент ИИ»).