Используйте OCR-технологии с элементами искусственного интеллекта

ContentReader® Engine. Многофункциональный OCR SDK для разработчиков

Эффективные инструменты обработки PDF

OCR SDK позволяет конвертировать сканы, цифровые фотографии, TIFF, JPEG, BMP и другие файлы различных форматов во множество форматов PDF и PDF/A с возможностью поиска. Кроме того, можно импортировать файлы PDF и PDF/A и обрабатывать их разными способами.
Конвертируйте документы в PDF или обрабатываете файлы PDF и PDF/A — ContentReader® Engine позволяет обрабатывать и создавать электронные документы в соответствии со стандартами PDF/A-3 и электронные счета ZUGFeRD с помощью целого ряда возможностей и инструментов.

Конвертация в PDF

ContentReader® Engine позволяет сохранять распознанный текст в PDF и PDF/A. Формат PDF используется в электронных архивах, где основное значение имеет небольшой размер файла и визуальное качество изображения. Для уменьшения размера файлов PDF и PDF/A используется специальная технология сжатия данных MRC (Mixed Raster Content).

Импорт и обработка PDF

Интеллектуальная обработка PDF

ContentReader® Engine анализирует следующую информацию в PDF-файлах:

  • Аннотации
  • Метаданные
  • Тестовые объекты
  • Шрифты
  • Поток данных

ContentReader® Engine позволяет улучшить качество и скорость конвертации PDF с помощью эффективного и точного распознавания текста. Если текст встроен в PDF-файл, OCR-инструмент анализирует целостность текстового слоя и определяет нужно ли извлечь текст или распознать его блок за блоком. При необходимости эту функцию можно отключить.

Извлечение внутренней информации из PDF-файла

При работе с PDF-файлами, ContentReader® Engine позволяет извлекать ссылки, гиперссылки и свойства документа, такие как тема, автор, название, ключевые слова и закладки.

Извлечение встроенных файлов из PDF/A-3

При открытии файлов формата PDF/A-3 можно извлекать встроенные данные, к примеру, XML или другую информацию, которую затем можно передать в другие системы.

Экспорт в PDF

Безопасность и поддержка шифрования PDF
  • ContentReader® Engine поддерживает ряд настроек безопасности PDF:
  • Запрос пароля при открытии файла — чтобы предотвратить несанкционированный доступ
  • Возможность ограничить конкретные действия, например, печать, редактирование или распознавание содержимого — за счет присвоения паролей, разграничивающих права доступа
  • Поддержка современных стандартов шифрования
Экспорт PDF с теговой разметкой
  • Размеченный PDF можно с легкостью настроить под любой размер страницы или экрана, например, смартфонов, планшетов или любых устройств для чтения.
Настройки размера страниц
  • Можно задать размер всех страниц выходного файла.
Экспорт метаданных
  • ContentReader® Engine позволяет экспортировать метаданные (закладки, гиперссылки, перекрестные ссылки и т. д.)
Конвертация в PDF/A
  • PDF/A — стандарт для долгосрочного хранения документов. Технологии позволяют сохранять документы в формате PDF/A разных уровней соответствия: PDF/A-1a, PDF/A-1b, PDF/A-2a, PDF/-2b, PDF/A-2u, а также PDF/A-3a и PDF/A-3b.
Экспорт PDF: китайский, японский и корейский языки
  • Инструмент позволяет конвертировать документы на китайском (упрощенном и традиционном), японском и корейском языках в формат PDF.

MRC-сжатие PDF (PDF/A)

Для уменьшения размера файлов PDF и PDF/A используется специальная технология сжатия MRC (Mixed Raster Content). Такие файлы занимают значительно меньше места, в то же время сохраняя визуальное качество исходного документа. Технология MRC-сжатия PDF идеально подходит при обработке цветных документов. MRC-сжатие — это превосходное качество и уменьшение размера файла в 8−10 раз по сравнению со сжатием JPEG.
Как правило, документы занимают много места из-за цветного фона — это примерно 90% размера файла. Технология MRC-сжатия распознает цветной фон и максимально сжимает его. Изображения (диаграммы, графики, логотипы, фотографии, чертежи, штампы, подписи и т. д.) сжимаются только до той степени, пока сохраняется их качество. В результате размер PDF-файла становится существенно меньше. Кроме того, MRC-технология анализирует контуры похожих символов в документе, создает шаблоны и применяет их вместо отдельных символов.
Таким образом корректируются возможные дефекты, а контуры символов становятся более четкими. Полученный PDF-документ содержит незаметный фон с текстом и изображениями, обеспечивая при этом небольшой размер файла и удобочитаемость выше, чем у оригинала. Такое «воссоздание» документа подойдет для распознавания оригиналов низкого качества.

Профили экспорта PDF: отладка качества и скорости обработки

Используйте предопределенные профили экспорта с предварительно настроенной конфигурацией параметров, чтобы обеспечить оптимальный результат конвертации PDF.

Закажите эффективное решение

Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.