Формировать корпус изучаемых объектов специалистам лаборатории помогут богослужебные книги — Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего.
«В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, — рассказал руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. — Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк — страницы, мы же обучаем машину распознавать границы текста, „вырезать“ строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить, как менялись текст, слово или знак на протяжении времени».
В интеллектуальную среду ЛИС «Рукописное наследие Древней Руси» можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.
По словам ученых, церковно-славянские тексты имеют свои особенности, которых нет в других языках. Это титлы (надстрочные знаки сокращения слов) и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке. Поэтому параллельно в лаборатории работают над созданием Морфологического словаря, в нем представят леммы со всеми словоформами и вариациями написания.
Не все страницы рукописей одинаково хорошо сохранились: где-то есть пятна, грязь, пожелтения, утраты, потрепанность, поэтому разница в яркости изображения не всегда может служить достаточным основанием для его сегментации. Нейросеть должна научиться распознавать изображение в нескольких режимах сразу — в различных цветах, изгибах линии.
Филологи же с помощью этого проекта хотят создать инструменты для изучения средневековых текстов.
Изучение и сравнение этих текстов дадут исследователям возможность понять в исторической перспективе, где, когда и почему происходили изменения в языке — в его лексике, синтаксисе, пунктуации, орфографии. Открытый проект позволит увидеть развитие языка, рассмотреть все варианты использования определенной буквы или слова — во всех рукописях, внесенных в базу данных. У каждого исследователя в системе будет отдельный кабинет.
«Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так, как это делается сейчас в Яндексе. Допустим, можно будет сделать запрос в ЛИС по конкретному слову, словосочетанию, фрагменту вязи, буквице — как они менялись на протяжении 700 лет? В настоящее время у нас нет общедоступной системы распознавания славянских рукописей. Есть немецкая система Transkribus, но она, во-первых, платная, а во-вторых, требует специальной и довольно сложной настройки для каждого нового почерка, мы же создаем самообучающуюся систему, способную распознавать рукописи разных эпох и разных почерков. И самое главное — Transkribus распознает отдельные рукописи, но не объединяет результаты распознавания в корпус», — резюмировала Александра Плетнева.
Проект поддержан по Научному направлению программы «Приоритет 2030».