Уже который год на рынке звучат прогнозы, что ЭДО окончательно вытеснит технологии распознавания документов. Сначала эту историю примеряли на классические OCR-системы, потом — на машинное обучение, теперь — на большие языковые модели (LLM). Но необходимость превращать изображение документа в структурированные данные так никуда и не делась. Почему?
Когда в компании внедряют электронный документооборот, кажется, что задача обработки входящих документов решена. Документы приходят от контрагента уже в электронном виде, к ним приложены структурированные данные — остается только провести их в учетной системе. Но на практике все оказывается немного иначе.
Чтобы понять, почему так происходит, мы поговорили с практиками, которые работают с ЭДО каждый день, собрали реальные боли финансистов и бухгалтеров на стороне получателя документов и рассмотрели варианты решений.
Когда в компании внедряют электронный документооборот, кажется, что задача обработки входящих документов решена. Документы приходят от контрагента уже в электронном виде, к ним приложены структурированные данные — остается только провести их в учетной системе. Но на практике все оказывается немного иначе.
Чтобы понять, почему так происходит, мы поговорили с практиками, которые работают с ЭДО каждый день, собрали реальные боли финансистов и бухгалтеров на стороне получателя документов и рассмотрели варианты решений.
Часть документов всегда приходит вне ЭДО
Первый и самый очевидный факт: даже у компаний, которые активно используют ЭДО, около 10% счетов поступают вне системы электронного документооборота. Это означает, что десятая часть входящего потока документов в принципе не попадает в «электронный контур» — ее нужно получить, классифицировать и обработать за рамками ЭДО (обычно вручную).
На первый взгляд, 10% это не так много. Но если у компании сотни или тысячи входящих документов в месяц, эта доля превращается в существенный объем ручной работы, который ЭДО не закрывает по определению.
На первый взгляд, 10% это не так много. Но если у компании сотни или тысячи входящих документов в месяц, эта доля превращается в существенный объем ручной работы, который ЭДО не закрывает по определению.
Документы внутри ЭДО — далеко не всегда структурированные данные
Куда интереснее то, что происходит внутри самой системы ЭДО. Принято считать, что любой документ, прошедший через оператора, автоматически становится структурированным. Но это не так.
В ЭДО у каждого документа есть атрибуты — фактически это XML-файл (иногда в формате Excel), который прикладывается к графическому образу документа. В этой XML-структуре содержатся ключевые данные, которые ложатся в карточку документа в учетной системе: реквизиты, суммы и так далее. И именно XML, а не изображение, является источником информации для учетной системы (система ведения бухгалтерского/управленческого/складского учета, казначейская платформа, на которой создаются заявки на оплату и т. д.). И здесь начинается самое интересное.
В ЭДО у каждого документа есть атрибуты — фактически это XML-файл (иногда в формате Excel), который прикладывается к графическому образу документа. В этой XML-структуре содержатся ключевые данные, которые ложатся в карточку документа в учетной системе: реквизиты, суммы и так далее. И именно XML, а не изображение, является источником информации для учетной системы (система ведения бухгалтерского/управленческого/складского учета, казначейская платформа, на которой создаются заявки на оплату и т. д.). И здесь начинается самое интересное.
Контрагенты ленятся прикладывать XML
Очень часто контрагенты не утруждают себя формированием корректной XML-структуры и отправляют через ЭДО просто скан — фактически фотографию документа без структурированных данных.
С точки зрения системы ЭДО такой документ формально получен и подписан. С точки зрения получателя — это все та же картинка, которую нужно превратить в данные. Никакой автоматической магии здесь не происходит: ЭДО передал файл, но извлекать из него реквизиты, суммы и позиции спецификации придется отдельно (да-да, обычно вручную).
В таких случаях бухгалтерам и финансистам приходится брать скан и руками вносить нужные системы недостающую в ЭДО информацию. То есть тот самый ручной труд, от которого электронный документооборот должен был избавить, никуда не делся. Он просто переехал из бумажного архива в окно электронной системы.
С точки зрения системы ЭДО такой документ формально получен и подписан. С точки зрения получателя — это все та же картинка, которую нужно превратить в данные. Никакой автоматической магии здесь не происходит: ЭДО передал файл, но извлекать из него реквизиты, суммы и позиции спецификации придется отдельно (да-да, обычно вручную).
В таких случаях бухгалтерам и финансистам приходится брать скан и руками вносить нужные системы недостающую в ЭДО информацию. То есть тот самый ручной труд, от которого электронный документооборот должен был избавить, никуда не делся. Он просто переехал из бумажного архива в окно электронной системы.
Почему ЭДО не отменяет потребность в распознавании документов
Эта ситуация повторяется уже не первый год — и ее сложно списать на временный сбой или «детскую болезнь» технологии. Реальная практика работы с ЭДО показывает: пока на стороне отправителя есть человеческий фактор (нежелание заполнять XML и отправка просто сканов документов), на стороне получателя всегда будет нужна технология, которая умеет читать изображения и превращать их в данные.
ЭДО решает задачу юридически значимой передачи документа в электронном виде, но не решает задачу извлечения данных, если отправитель эти данные не предоставил.
ЭДО решает задачу юридически значимой передачи документа в электронном виде, но не решает задачу извлечения данных, если отправитель эти данные не предоставил.
Как закрыть пробел: интеллектуальная обработка документов рядом с ЭДО
Именно этот пробел между ЭДО и учетной системой и закрывает платформа интеллектуальной обработки документов. Ее задача — встроиться в процесс там, где ЭДО не справляется: на этапе превращения скана в полноценные структурированные данные.
В Content AI этой задачей занимается ContentCapture®. Применительно к работе с ЭДО платформа закрывает несколько практических проблем:
Встраивается рядом с уже работающим ЭДО и учетной системой. Интеграция идет через XML-описания и API, а ContentCapture® становится дополнительным слоем между ЭДО и учетным контуром.
В Content AI этой задачей занимается ContentCapture®. Применительно к работе с ЭДО платформа закрывает несколько практических проблем:
- Распознает документы, пришедшие в виде скана или фото — те самые фото, которые контрагенты присылают вместо XML. На выходе получаются те же структурированные данные, что должны были быть в XML.
- Автоматически определяет тип документа и извлекает необходимые атрибуты. Счет, акт, накладная, УПД — система классифицирует документ и находит нужные поля: реквизиты, суммы, позиции спецификации. При необходимости метаданные можно поправить вручную.
- Разбирает многостраничные PDF. Если контрагент прислал такой скан или пачку документов в одном файле, ContentCapture® делит поток на отдельные документы — по штрихкодам, пустым страницам или заданным правилам.
Встраивается рядом с уже работающим ЭДО и учетной системой. Интеграция идет через XML-описания и API, а ContentCapture® становится дополнительным слоем между ЭДО и учетным контуром.
От распознавания к автоматизации действий
Распознать документ — только половина дела. Дальше данные нужно обработать: внести информацию в карточку ЭДО, в учетную систему, сверить данные с CRM, отправить уведомление ответственному сотруднику. Долгое время автоматизацию подобных задач решали отдельной RPA-платформой, то есть, по сути, вторым продуктом рядом с системой распознавания.
В ContentCapture® эти слои объединены. Платформа сочетает в себе:
Сценарии в ContentCapture® включают в себя работу с документами, а также с облачными хранилищами, корпоративными базами знаний и т. д. При этом работа с документами остается ключевым сценарием — потому что там, где есть документ, есть и потребность сначала его распознать, а потом что-то с ним сделать.
Чем это отличается от альтернатив
В ContentCapture® эти слои объединены. Платформа сочетает в себе:
- IDP для интеллектуальной обработки документов (распознавание сканов, классификация, извлечение полей);
- RPA-агентов — программных роботов, которые выполняют действия в браузере, почте, CRM, СЭД, ERP и других корпоративных системах;
- Быструю разработку сценариев через вайб-кодинг: код пишется в ИИ-IDE, а сценарии RPA-автоматизации хранятся в Git или локально.
Сценарии в ContentCapture® включают в себя работу с документами, а также с облачными хранилищами, корпоративными базами знаний и т. д. При этом работа с документами остается ключевым сценарием — потому что там, где есть документ, есть и потребность сначала его распознать, а потом что-то с ним сделать.
Чем это отличается от альтернатив
Применительно к ЭДО схема выглядит так: ЭДО доставил документ, ContentCapture® распознала скан и извлекла данные, RPA-агент сам внес их в карточку ЭДО и провел в учетной системе. Тут участие человека будет требоваться только в спорных случаях.
Вывод
ЭДО и интеллектуальная обработка документов — две части одного процесса.
Прогнозы, что ЭДО убьет распознавание, из года в год не сбываются и вряд ли сбудутся, пока документы создают и отправляют живые люди, которым проще приложить скан, чем сформировать корректный XML.
Поэтому продуктивнее не ждать, что проблема решится сама, а закрыть ее технологически, добавив к ЭДО слой интеллектуальной обработки документов и RPA-агентов.
Прогнозы, что ЭДО убьет распознавание, из года в год не сбываются и вряд ли сбудутся, пока документы создают и отправляют живые люди, которым проще приложить скан, чем сформировать корректный XML.
Поэтому продуктивнее не ждать, что проблема решится сама, а закрыть ее технологически, добавив к ЭДО слой интеллектуальной обработки документов и RPA-агентов.