Используйте OCR-технологии с элементами искусственного интеллекта

FineReader Engine. Многофункциональный OCR SDK для разработчиков

Эффективные инструменты обработки PDF

OCR SDK позволяет конвертировать сканы, цифровые фотографии, TIFF, JPEG, BMP и другие файлы различных форматов во множество форматов PDF и PDF/A с возможностью поиска. Кроме того, можно импортировать файлы PDF и PDF/A и обрабатывать их разными способами.

Конвертируйте документы в PDF или обрабатываете файлы PDF и PDF/A — FineReader Engine позволяет обрабатывать и создавать электронные документы в соответствии со стандартами PDF/A-3 и электронные счета ZUGFeRD с помощью целого ряда возможностей и инструментов.

Конвертация в PDF

FineReader Engine позволяет сохранять распознанный текст в PDF и PDF/A. Формат PDF используется в электронных архивах, где основное значение имеет небольшой размер файла и визуальное качество изображения. Для уменьшения размера файлов PDF и PDF/A используется специальная технология сжатия данных MRC (Mixed Raster Content).



Импорт и обработка PDF

Интеллектуальная обработка PDF

FineReader Engine анализирует следующую информацию в PDF-файлах:

  • Аннотации
  • Метаданные
  • Тестовые объекты
  • Шрифты
  • Поток данных

FineReader Engine позволяет улучшить качество и скорость конвертации PDF с помощью эффективного и точного распознавания текста. Если текст встроен в PDF-файл, OCR-инструмент анализирует целостность текстового слоя и определяет нужно ли извлечь текст или распознать его блок за блоком. При необходимости эту функцию можно отключить.

Извлечение внутренней информации из PDF-файла

При работе с PDF-файлами, ABBYY FineReader Engine позволяет извлекать ссылки, гиперссылки и свойства документа, такие как тема, автор, название, ключевые слова и закладки.


Извлечение встроенных файлов из PDF/A-3

При открытии файлов формата PDF/A-3 можно извлекать встроенные данные, к примеру, XML или другую информацию, которую затем можно передать в другие системы.



Экспорт в PDF

Безопасность и поддержка шифрования PDF

  • FineReader Engine поддерживает ряд настроек безопасности PDF:
  • Запрос пароля при открытии файла — чтобы предотвратить несанкционированный доступ
  • Возможность ограничить конкретные действия, например, печать, редактирование или распознавание содержимого — за счет присвоения паролей, разграничивающих права доступа
  • Поддержка современных стандартов шифрования

Экспорт PDF с теговой разметкой

  • Размеченный PDF можно с легкостью настроить под любой размер страницы или экрана, например, смартфонов, планшетов или любых устройств для чтения.

Настройки размера страниц

  • Можно задать размер всех страниц выходного файла.

Экспорт метаданных

  • FineReader Engine позволяет экспортировать метаданные (закладки, гиперссылки, перекрестные ссылки и т. д.)

Конвертация в PDF/A

  • PDF/A — стандарт для долгосрочного хранения документов. Технологии ABBYY позволяют сохранять документы в формате PDF/A разных уровней соответствия: PDF/A-1a, PDF/A-1b, PDF/A-2a, PDF/-2b, PDF/A-2u, а также PDF/A-3a и PDF/A-3b.

Экспорт PDF: китайский, японский и корейский языки

  • Инструмент позволяет конвертировать документы на китайском (упрощенном и традиционном), японском и корейском языках в формат PDF.


MRC-сжатие PDF (PDF/A)

Для уменьшения размера файлов PDF и PDF/A используется специальная технология сжатия MRC (Mixed Raster Content). Такие файлы занимают значительно меньше места, в то же время сохраняя визуальное качество исходного документа. Технология MRC-сжатия PDF идеально подходит при обработке цветных документов. MRC-сжатие — это превосходное качество и уменьшение размера файла в 8–10 раз по сравнению со сжатием JPEG.

Как правило, документы занимают много места из-за цветного фона — это примерно 90% размера файла. Технология MRC-сжатия распознает цветной фон и максимально сжимает его. Изображения (диаграммы, графики, логотипы, фотографии, чертежи, штампы, подписи и т. д.) сжимаются только до той степени, пока сохраняется их качество. В результате размер PDF-файла становится существенно меньше. Кроме того, MRC-технология анализирует контуры похожих символов в документе, создает шаблоны и применяет их вместо отдельных символов.

Таким образом корректируются возможные дефекты, а контуры символов становятся более четкими. Полученный PDF-документ содержит незаметный фон с текстом и изображениями, обеспечивая при этом небольшой размер файла и удобочитаемость выше, чем у оригинала. Такое «воссоздание» документа подойдет для распознавания оригиналов низкого качества.

Профили экспорта PDF: отладка качества и скорости обработки

Используйте предопределенные профили экспорта с предварительно настроенной конфигурацией параметров, чтобы обеспечить оптимальный результат конвертации PDF.

Закажите эффективное решение
Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения для задач вашего бизнеса.

С апреля 2022 года работу со всеми клиентами и партнерами ABBYY Россия продолжит компания Content AI (ООО «Контент ИИ»).