Российские учёные расшифровали рукописи Пушкина при помощи ИИ
Технологии помогли распознать зачёркнутые слова в записях великого поэта.
Российские лингвисты и специалисты по нейросетям из компании Smart Engines расшифровали рукописи Александра Пушкина при помощи специально обученной нейросети. Учёные смогли снять зачёркивания в записях поэта, тем самым восстановив утраченные места. Об этом рассказали в RTVI.
На первом этапе специалисты обучили нейросеть убедительно зачёркивать слова в рукописях так, как это делал Пушкин. Для того, чтобы создать модель движений руки поэта, эксперты использовали «Болдинские рукописи», которые послужили основным набором данных.
Мы работали над снятием зачёркиваний в рукописях Пушкина. На основании обучающих данных нейросеть должна запоминать, какие движения пера в незачёркнутых словах свойственны почерку Пушкина, и восстанавливать утраченные места, пользуясь моделью движений руки поэта. [...]
Перед тем, как использовать искусственный интеллект для снятия зачёркиваний в рукописях, было необходимо сперва добиться, чтобы нейросеть понимала, как именно Пушкин зачёркивал слова в своих текстах. Например, не путала две перечёркнутые вертикальные линии с буквой «Н».
На втором этапе учёные применили полученные изображения со сгенерированными зачёркнутыми словами «как у Пушкина» для обучения основной нейросети, способной снимать зачёркивания. Такой подход позволил оценить эффективность алгоритма, поскольку специалисты знали исходные слова. В основу этой модели легла нейросетевая архитектура «Да Винчи», созданная Smart Engines.
В результате обучения двух нейросетей специалисты создали программу, которая обрабатывает уже настоящие рукописи Пушкина, позволяя определить, как выглядели слова до зачёркивания.
Работа нейросетей заключается в том, чтобы сформировать гипотезу, а дальше к процессу должны подключиться текстологи. Эксперты, которые хорошо знакомы с почерком Пушкина, смогут на основе обработанных рукописей распознать конкретные слова.
Авторы проекта готовят серию научных публикаций, а также намерены и дальше совершенствовать технологию. Её планируют использовать и для обработки рукописей других авторов.