Все новости & Блог

Компания Content AI помогла в оцифровке изданий для проекта «Слово Толстого»

Content AI, российский разработчик решений для интеллектуальной обработки информации, принял участие в подготовке нового раздела проекта «Слово Толстого» — цифрового путеводителя по наследию писателя. Компания помогла оцифровать двухтомное издание «Летопись жизни и творчества Л. Н. Толстого» Н. Н. Гусева, личного секретаря писателя и автора серии работ о нем.

Задача включала оцифровку издания с выделением детальных атрибутов для расстановки тегов, соотносящихся с различными типами данных — датами событий жизни, местами, где события происходили, комментариями автора и т. д. Для ее реализации решено было использовать ContentCapture, универсальную платформу для интеллектуальной обработки информации. ContentCapture позволяет извлекать данные из любых типов и форматов документов и обрабатывать их по определенным сценариям. В основе платформы лежат признанные во всем мире OCR- и NLP-технологии.

На предварительном этапе специалисты Content AI предложили логику извлечения полей и разработали гибкие описания для выделения из двухтомного издания нескольких десятков необходимых атрибутов с деталями каждого события. Далее в ContentCapture были распознаны отсканированные страницы документа. В процессе обработки и извлечения атрибутов использовались скрипты автокоррекции и местозаполнители. С их помощью удалось проанализировать структуру документа, разобрать описание событий на структурные детали, восстановить пропущенные в тексте или представленные иносказательно данные, например, «в том же году».
Результатом работы стал подробно размеченный текстовый материал, представленный в структурированном интерфейсе. На его основе был создан календарь, в котором в удобной форме можно читать биографию Л. Н. Толстого, написанную Н. Н. Гусевым, и соотносить эти данные с другими источниками. Также у пользователей есть возможность искать нужную информацию по хронике, используя многочисленные фильтры.
Двухтомное издание «Летописи жизни и творчества Л. Н. Толстого» Н. Н. Гусева включено в цифровой путеводитель по наследию писателя «Слово Толстого», созданный на основе 90-томного собрания сочинений Льва Толстого.

Проект запущен в конце 2022 года и продолжает пополняться новыми материалами. Пользователи ресурса могут осуществлять поиск по отдельным словам и выражениям по всем текстам Толстого, а также пользоваться разнообразными фильтрами, чтобы получить точный ответ на запрос. В ближайшее время планируется опубликовать подробную хронику жизни писателя на основе этих материалов.

Фекла Толстая, инициатор проекта «Слово Толстого», руководитель группы Tolstoy Digital:

«Такого полного и системного цифрового представления наследия писателя до нас никто не делал, и нам очень приятно, что этот путь первопроходцев с нами разделяют наши партнеры — также заинтересованные в создании нового, как и мы. Еще 10 лет назад мы сделали большой волонтерский проект „Весь Толстой в один клик“ на базе технологий, которые использует Content AI. Его результатом стало выверенное цифровое издание 90-томного собрания сочинений Толстого. Сегодня благодаря коллегам из Content AI мы смогли использовать всемирно признанные технологии распознавания текста для быстрого и качественного перевода сложных научных книг в цифровой вид, сразу распознавая цитаты, даты и ссылки на книги».

Светлана Дергачева, генеральный директор Content AI:

«Участие в таких культурно-просветительских проектах, как „Слово Толстого“, имеет для Content AI огромное значение. Мы гордимся тем, что наши технологии для распознавания текста помогают вносить вклад в сохранение культурного наследия одного из величайших российских писателей, делают материалы о его творчестве доступными для изучения современными исследователями и почитателями. С развитием технологий появляются все новые способы извлечения, обработки и анализа информации. Это открывает большие возможности для работы с историческими источниками и способствует углублению сотрудничества технологических компаний и организаций из сферы науки и культуры».
Новости