Компания

Решения

Продукты

Магазин

Консультация

Решение для обработки документов, удостоверяющих личность

Для разработчиков

Сравнение документов ContentReader^® Engine

Автоматическое сравнение документов для снижения рисков подписания некорректных версий

Многофункциональный OCR SDK для разработчиков

ContentReader^® Engine

Intelligent Search

Для бизнеса

Серверное решение для распознавания и конвертации документов

ContentReader^® Server

ContentCapture^®

Удобный инструмент для просмотра PDF-документов

ContentReader^®PDF Lite

Для персонального использования

Многофункциональный редактор PDF

ИИ-ассистенты на основе поисковых технологий

PassportReader 2.0

ContentReader^® PDF для офиса

ContentReader^® PDF для дома

Распознавание документов и роботизация процессов в единой платформе

Редактор PDF-документов с ИИ-ассистентом и функцией сравнения и автораспознавания

Для ритейла

Оптимизация операционных процессов с помощью автоматической обработки документов

Оптимизация затрат на операционную деятельность: обработка показаний приборов, другое

Для энергетики

Кросс-индустриальные

Автоматизация ключевых бизнес-процессов: обработка первичных документов, извлечение данных из документов

Автоматизация обработки различных документов на промышленных предприятиях

Для промышленности

Для банков

Автоматизация обработки основных финансовых документов: открытие счета, обработка кредитных заявок, другое

Оптимизация оцифровки, электронные архивы, обработка бланков и анкет, другое

Для госсектора

Истории успеха

Клиенты

О нас

О компании Content AI

Центр компетенций

Онлайн-курсы от экспертов Content AI

Пресс-релизы и интервью, информация для СМИ

Новости

Наша команда

Руководство и менеджмент

Вакансии в Content AI

Карьера

Российские вендоры ПО

Технологическое сотрудничество

Партнерский портал

Перейти во внутренний портал для наших партнеров. Стать партнером

Наши партнеры

Дистрибьюторы, партнеры по массовым и корпоративным продуктам

Справочная информация о продуктах Content AI

Онлайн-справка

База знаний

Ответы на частые вопросы пользователей

Техническая поддержка

Отправить запрос в техническую поддержку

Магазин

Консультация

Content AI — российский разработчик решений в области интеллектуальной обработки информации.

Статьи

ИИ и защита данных: как обеспечить безопасность при использовании ИИ-платформ

Многие поставщики и потребители перешли в онлайн. Бизнесу это было необходимо, чтобы банально выжить. Но на практике выяснилось, что такие каналы связи и сопутствующие сервисы для обработки или хранения информации сильно влияют на конфиденциальность переписки, переговоров, транзакций и других взаимодействий.

В итоге опасности кражи подвергаются персональные данные потребителей. В сеть несанкционированно утекают учетные записи и пароли, адреса и данные по проведенным операциям. Больше всего таких случаев у брокеров, маркетплейсов, агрегаторов, маркетинговых и рекламных агентств, служб знакомств. Но масштабные утечки происходят и по причине более длительного хранения данных пользователей, чем это установлено законом. При превышении сроков риск скомпрометировать информацию о клиентах существенно возрастает.

Текущая ситуация с утечками при распознавании документов

Здесь аналогичная проблема, хотя более узконаправленная, но не менее острая. В фокусе внимания — организации, которые собирают данные клиентов и предоставляют услуги только при наличии паспорта или другого удостоверения личности. Риски во многом зависят от того, как хранится такая информация:

в виде полного набора персональных данных, в том числе реквизитов паспорта, либо его образа (скан, фото);
сведения для доступа к личной странице на сайтах;
информация о совершенных операциях в структурированном виде;
зашифрованный набор символов, который не может прочитать сторонний пользователь.

Утечка в открытую сеть любых структурированных данных становится следствием либо применения несоответствующих уровней защиты, либо попустительства разработчиков.

О технологии

Все компании, которые специализируются на оказании услуг, хотят сделать их для клиентов максимально удобными, простыми в восприятии, технически продвинутыми и модными с учетом современных тенденций. Например, каждый из нас сталкивается с голосовыми помощниками Cortana, Google или Siri. Но все эти сервисы ненавязчиво собирают о пользователях большой объем информации. Причем им становится известно даже то, что не знаем мы сами.

Наша компания работает в сфере распознавания документов различного типа. В этом направлении обслуживания инструментами выступают удаленные сервисы или программные решения, которые помогают:

быстро заполнить регистрационную форму, например, для покупки билета на поезд или при посадке в самолет;
без лишних усилий оформить кредит или страховой полис.

Указанные инструменты основаны на автоматизации распознавания и сопоставления документов и соответствующих граф в формах, бланках и т. п. Удается существенно упростить процесс как для клиентов, так и для сотрудников, минимизировать неверный ввод данных и исключить влияние человеческого фактора на результат.

Разница в безопасности удаленного и автономного сервиса распознавания

Существует настоящая пропасть в проблемах для пользователей, создаваемых приложением, которое установлено и независимо работает на собственном устройстве, и ПО, которое предоставляет услуги в облаке или на сервере с расположением, возможно, на другом конце мира. Очевидно, что риски утечек образов пользовательских документов, размещенных на этих двух ресурсах, будут сильно отличаться не в пользу последнего.

Чтобы обеспечить надежную защиту информации при удаленном распознавании, важно построить грамотную систему безопасности как в отношении самого внешнего сервера, так и каналов передачи данных. Если это не сделано, то компании и конечные клиенты не могут чувствовать себя спокойно.

Чаще всего, объектом утечек и продаж в даркнете становятся фото и сканы, то есть образы документов. Среди них:

ID-карты, гражданские и заграничные паспорта;
водительские удостоверения, паспорта транспортных средств;
юридически значимые договоры;
полисы пенсионного и медицинского страхования;
банковские карты;
дипломы.

Массовые утечки означают, что невольными поставщиками изображений документов в закрытый сегмент интернета являются именно удаленные серверы. Данные хранятся на них в незашифрованном виде и легко доступны для недобросовестных организаций и мошенников. Возможность кражи информации обусловлена также техническим несовершенством систем безопасности при передаче и распознавании данных или участием в обработке неподконтрольных сторонних лиц.

Обычно организации заключают договор об услугах распознавания с независимыми сервисами, пытаясь сэкономить. И это несмотря на сложности, которые сулит такое сотрудничество в части обработки и обеспечения сохранности персональных данных. Но на поверку низкая стоимость таит в себе массу проблем и рисков:

Если передать функции распознавания стороннему подрядчику, то есть на удаленный сервер, то поручиться за результат невозможно. Мы знаем обслуживающую организацию, но каждого отдельного исполнителя — нет. Это примерно то же, что дать задание рабочим, приглашенным для ремонта кабинета отдела кадров, сделать опись личных карточек или трудовых книжек сотрудников.
Скорее всего, используются самые простые и дешевые технологии. Нельзя точно узнать, на каком принципе основано распознавание данных на конкретном удаленном сервисе. В обозримом прошлом такие сервисы не обладали ни машинным зрением, ни искусственным интеллектом. Процесс распознавания полностью ложился на плечи физических «чтецов». Это могла быть настоящая фабрика по ручному вводу данных из реальных паспортов, расположенная в беднейшей стране мира и в которой люди трудились за гроши. В настоящее время разрабатываются весьма изощренные трояны и шпионские программы. Поэтому перехват образов с последующей отправкой в даркнет может выполняться любым недоброжелателем путем внедрения вредоносного кода в какое-то звено передачи информации.
Безопасность отправки документов на сервер для обработки изображений никак не контролируется. Так как информация не шифруется, то на данном этапе она оказывается очень уязвимой.

А если обеспечивать надежность и сохранность данных действительно на высоком уровне, то полностью пропадает выгода в виде быстрого, дешевого и простого процесса передачи.

При этом распознавание в удаленном сервисе все равно медленнее, чем в приложениях, которые устанавливаются непосредственно на конечных устройствах. Как минимум, требуется дополнительное время на захват изображения, отправку на сервер и возврат готовых данных в систему.

Еще один неоспоримый плюс автономных приложений — изолированная работа без передачи информации в сеть. А в последних поколениях такого ПО нет даже возможности сохранять обработанные изображения документов. Это сделано как раз для предотвращения утечек. Использование для распознавания конечного устройства гарантирует, что никакие данные передаваться не будут вообще или только в минимально требуемом объеме.

Отметим: облачные хранилища или удаленные серверы — не единственный источник утечек. Но для злоумышленников они — легкая добыча, тем более если не заботиться о должных уровнях защиты информации.

Многие крупные компании уходят от работы с такими сервисами и предпочитают создавать локальные хранилища данных клиентов и усиливать собственные службы ИТ-безопасности. Даже при случайном попадании информации в сеть, отследить слабое место в системе обработки и оповестить об инциденте оказывается намного проще. Кроме того, стало очевидно, что сторонний подрядчик в вопросе хранения и обработки чувствительных данных — это реальная угроза финансовых и репутационных потерь.