К основному контенту
Решение для обработки документов, удостоверяющих личность
Для разработчиков
PassportReader SDK
Сравнение документов ContentReader® Engine
Автоматическое сравнение документов для снижения рисков подписания некорректных версий
Многофункциональный OCR SDK для разработчиков
ContentReader® Engine
Intelligent Search
Для бизнеса
Корпоративный поиск по всем источникам данных
Серверное решение для распознавания и конвертации документов
ContentReader® Server
Универсальная платформа для интеллектуальной обработки информации
ContentCapture®
Для персонального использования
Электронные словари для изучения иностранных языков
Lingvo®
ContentReader® PDF 15 для офиса
Интеллектуальный редактор PDF с функцией сравнения и автораспознавания
Многофункциональный редактор PDF
ContentReader® PDF 15 для дома
Для ритейла
Оптимизация операционных процессов с помощью автоматической обработки документов
Оптимизация затрат на операционную деятельность: обработка показаний приборов, другое
Для энергетики
Кросс-индустриальные
Автоматизация ключевых бизнес-процессов: обработка первичных документов, извлечение данных из документов
Автоматизация обработки различных документов на промышленных предприятиях
Для промышленности
Для банков
Автоматизация обработки основных финансовых документов: открытие счета, обработка кредитных заявок, другое
Оптимизация оцифровки, электронные архивы, обработка бланков и анкет, другое
Для госсектора
Истории успеха
Клиенты
О нас
О компании Content AI
Пресс-релизы и интервью, информация для СМИ
Новости
Наша команда
Руководство и менеджмент
Вакансии в Content AI
Карьера
Российские вендоры ПО
Технологическое сотрудничество
Партнерский портал
Перейти во внутренний портал для наших партнеров. Стать партнером
Наши партнеры
Дистрибьюторы, партнеры по массовым и корпоративным продуктам
Справочная информация о продуктах Content AI
Онлайн-справка
База знаний
Ответы на частые вопросы пользователей
Техническая поддержка
Отправить запрос в техническую поддержку
 
Реализованные проекты

Content AI оцифровала биографический двухтомник Льва Толстого для электронного путеводителя по наследию автора

logo
«Слово Толстого» — цифровой путеводитель по наследию писателя, созданный на основе 90-томного собрания сочинений Льва Толстого. Этот проект — результат многолетней работы группы Tolstoy Digital, филологов и специалистов по Digital Humanities.

«Такого полного и системного цифрового представления наследия писателя до нас никто не делал, и нам очень приятно, что этот путь первопроходцев с нами разделяют наши партнеры — также заинтересованные в создании нового, как и мы. Еще 10 лет назад мы сделали большой волонтерский проект "Весь Толстой в один клик" на базе технологий, которые использует Content AI. Его результатом стало выверенное цифровое издание 90-томного собрания сочинений Толстого. Сегодня благодаря коллегам из Content AI мы смогли использовать всемирно признанные технологии распознавания текста для быстрого и качественного перевода сложных научных книг в цифровой вид, сразу распознавая цитаты, даты и ссылки на книги».

Фекла Толстая
инициатор проекта «Слово Толстого», руководитель группы Tolstoy Digital
  • Цели
    • Оцифровать биографический двухтомник «Летопись жизни и творчества Л. Н. Толстого» Николая Гусева
    • Выделить атрибуты для расстановки тегов по тексту
    • Обеспечить возможность удобной навигации по тексту при обращении к справочным материалам
  • Решение

    Универсальная платформа для интеллектуальной обработки информации ContentCapture®

  • Результат
    • Двухтомник «Летопись жизни и творчества Л. Н. Толстого» Николая Гусева переведен в электронный вид
    • На основе размеченного текстового материала создан календарь, в котором в удобной форме можно читать биографию автора и соотносить эти данные с другими источниками
    • Пользователи могут свободно перемещаться по многостраничному документу, уточняя по клику дополнительную информацию
Оцифровать нельзя обработать вручную

«Слово Толстого» — это цифровой путеводитель по наследию писателя Льва Толстого, который создан на базе его многочисленных сочинений. Удобная навигация ресурса позволяет осуществлять поиск по 90-томному собранию автора, используя различные фильтры, а также получать дополнительную информацию по описанным им событиям.

Проект постоянно развивается и пополняется новой информацией, поскольку является важной частью глобальной программы подготовки к 200-летию со дня рождения Толстого в 2028 году. И двухтомное издание «Летопись жизни и творчества Л. Н. Толстого», написанное личным секретарем писателя Николаем Гусевым, стало очередным пополнением коллекции проекта. Оцифровать и разметить тегами почти 2 тыс. страниц удалось с помощью российского разработчика решений для интеллектуальной обработки информации Content AI.
ContentCapture — извлечение и обработка данных из любых типов документов

Перед Content AI стояла задача не просто оцифровать двухтомник о писателе, но и выделить в тексте атрибуты для расстановки тегов, которые соотносятся с различными типами данных: датами и местами, где происходили важные события в жизни Толстого, или дополнительными комментариями автора.

Для реализации проекта решено было использовать IDP-платформу ContentCapture, которая с помощью признанных во всем мире OCR- и NLP-технологий умеет извлекать данные из любых типов и форматов документов и обрабатывать их по заданным сценариям.

Сначала команда Content AI разработала логику извлечения нужных полей в тексте, а также гибкие описания для выделения нескольких десятков необходимых атрибутов с дополнительными деталями по каждому событию.

Затем ContentCapture распознала отсканированные страницы издания и запустила процесс обработки и извлечения нужных атрибутов из текста. Для того чтобы этот этап прошел без ошибок, использовались скрипты автокоррекции и местозаполнители — с их помощью удалось проанализировать структуру документа, разобрать описание событий на структурные детали, восстановить пропущенные в тексте или представленные иносказательно данные (например, «в том же году»).

В результате полученный интерактивный многостраничный текст с размеченными данными лег в основу календаря событий из жизни автора.
ИИ и Толстой

ContentCapture с помощью технологий искусственного интеллекта смогла оцифровать и разметить почти 2 тыс. страниц двухтомника о жизни Льва Толстого. Результатом работы стал подробно размеченный текстовый материал, представленный в структурированном интерфейсе. На его основе был создан календарь, в котором в удобной форме можно читать биографию Л. Н. Толстого, написанную Н. Н. Гусевым, и соотносить эти данные с другими источниками. Также у пользователей есть возможность искать нужную информацию по хронике, используя многочисленные фильтры.

Создатели проекта планируют в будущем передать все собранные данные в Институт русского языка РАН для дальнейшего создания «Словаря языка Толстого», а также подготовить корпус файлов для создания подкорпуса Толстого в НКРЯ.
image

Запросить консультацию

Заполните форму и получите консультацию, как наиболее эффективно использовать наши решения.