издается с 1879Купить журнал

"...Он нисколько не заботится о синтаксисе"

Может ли искусственный интеллект прочитать письма Петра Первого?

Недавно в интервью с исполнительным директором фонда "История Отечества" Константином Могилевским ("Бесценные каракули Петра", "Родина", март 2022 года) в журнале в общих чертах был представлен проект по расшифровке почерка Петра Великого. Теперь вниманию читателей предлагается детальный обзор того, как это работает. А в конце этой статьи читатели найдут ссылку, по которой каждый сможет сгенерировать поздравительную открытку, написанную рукой великого императора.

Новая мода

До Петра I русские государи редко брали в руку перо.

Под указами Петра I рядом с прикладной печатью стоит его подпись - "Петръ". Она легко узнаваема: одним стремительным росчерком написаны первые две буквы, затем над строкой начертана выносная "т", потом резко уходящая под строку нижняя мачта буквы "р" и "ер". Нередко в конце писем государя встречается и другой вариант личной подписи - "Piter". (см. рис. 1).

Подпись Петра. Фото: Архив СПБИИ РАН. Колл. 277. ОП. 2. Д. I-12. л. 21

Однако первый российский император не только подписывал указы или ставил резолюции. До наших дней в архивах и библиотеках сохранилось около пятнадцати тысяч петровских автографов. В их числе собственноручные указы, распоряжения, схемы и чертежи. Государь сам писал сподвижникам (А.Д. Меншикову, Б.П. Шереметеву, Ф.М. Апраксину, Б.И. Куракину, А.И. Ушакову), матери, царице Наталии Кирилловне, жене Екатерине Алексеевне и другим членам семьи. Никто из предшественников Петра на троне не оставил столь обширного эпистолярного наследия.

Письмо Петра I из Санкт-Петербурга Б.И. Куракину об отказе Я. Любса строить корабли. 29 мая 1720 г. Фото: Архив СПБИИ РАН. Колл. 277. ОП. 2. Д. XI–31. л. 92.

Рука "спешащего"

Собственноручные письма людей Петровской эпохи свидетельствуют о продолжении скорописной традиции: использование выносных букв и сокращений, отсутствие знаков препинания и пробелов между словами. Однако автографам Петра I присуща яркая индивидуальная манера. Это рука "спешащего" человека (торопящегося отдать распоряжение, поделиться новостями, сделать выговор провинившемуся чиновнику), поэтому иногда пропускающего буквы, слоги или даже слова. Петр активно использовал сокращения. В его автографах нередко встречаются иностранные слова и топонимы, а также узкоспециальные военные и инженерные термины.

Выдающийся исследователь петровской эпохи М.М. Богословский дал яркую характеристику манеры письма государя: "Когда он пишет письмо, его цель, чтобы его ясно поняли и в точности исполнили то, что он в письме приказывает; поэтому он и старается выразиться кратко, ясно и энергично. Он нисколько не заботится о синтаксисе... лишь бы был ясен смысл и лишь бы мысль была выражена достаточно полно. Подобно тому, как, попадая к кому-либо на обед, Петр занимал первое попавшееся место, он, когда пишет, берет для выражения мысли первое попадающееся ему слово, одинаково русское или иностранное; всякое слово для него пригодно: победа или виктория, слава или фама, лихорадка или фибра и т.д. Тою же неразборчивостью отличается его орфография, орфография чисто слуховая. Петр пишет по слуху, употребляет первую попавшуюся букву для того звука, который ему хочется изобразить. Все буквы для него одинаково пригодны... и только к твердому знаку он питает какую-то особую любовь, ставя его к месту и не к месту"1.

Письмо Петра I Ф.М. Апраксину о пожаловании его деревней Мокрый Буерак в Лебедянском уезде. 1700-1707 гг. Фото: Архив СПБИИ РАН. Колл. 277. ОП. 1. Д. 2. Л. 1.

На первый взгляд, собственноручные письма Петра невозможно прочитать. Не только любитель русской истории, но и специалист по Петровской эпохе "сходу" не разберет текст целиком. Устойчивый навык чтения петровских автографов приобретается только после медленного и вдумчивого прочтения десятков и даже сотен малоразборчивых строк.

Миссия комиссии из 1872 года

В 1872 г. в России торжественно отмечали 200-летие со дня рождения Петра I. Юбилей императора побудил ученых обратить пристальное внимание на его эпистолярное наследие. Академик (и будущий директор императорской Публичной библиотеки) А.Ф. Бычков в течение многих лет работал с петровскими документами, готовил к печати каталоги и сборники. Поэтому, наверное, неслучайно именно ему принадлежал замысел выявить, скопировать и опубликовать рассредоточенные по различным государственным, ведомственным и частным собраниям письма и бумаги Петра. Незадолго до этого аналогичный амбициозный проект успешно завершили французские ученые: с 1858 по 1870 г. один за другим были опубликованы 32 тома автографов императора Наполеона I2.

Инициативу Бычкова поддержал министр народного просвещения Д.А. Толстой и "удостоил своим одобрением" император Александр II. В декабре 1872 г. под председательством Толстого была сформирована Комиссия по изданию писем и бумаг императора Петра Великого. В ее состав вошли видные петербургские и московские ученые С.М. Соловьев, Н.А. Попов, К.Н. Бестужев-Рюмин, Е.Е. Замысловский, Н.В. Калачов, А.Е. Викторов, а также А.Ф. Бычков, которому поручили координировать работу. В результате многолетней кропотливой работы было выявлено и скопировано около 15 000 различных документов.

Подготовка публикации продвигалась медленно, сказывался недостаток финансирования. Да и задача, которую поставили перед собой русские ученые, была сложнее, чем у французов. Публикация писем Петра сопровождалась научным комментарием и копиями ответных посланий. Только в 1887 г., через пятнадцать лет после создания комиссии, вышел из печати первый том "Писем и бумаг императора Петра Великого"3. В него вошли материалы за 1688-1701 гг. Всего до революции успели издать шесть томов. Первая часть седьмого тома увидела свет в 1918 г. в Петрограде, а вторая - только в 1946 г. С того времени издание перенесли в Москву. Второй выпуск тринадцатого тома, который опубликовали в 2003 г., включил материалы за июль-декабрь 1713 г. В настоящее время готовится к выходу том с материалами за 1714 г. До сих пор значительная часть эпистолярного наследия Петра не введена в широкий научный оборот.

Машинное чтение и автографы Петра

Перспективы применения новых методов при изучении автографов первого российского императора открылись благодаря проекту "Автографы Петра Великого: Чтение технологиями искусственного интеллекта", инициированному в июне 2020 г. Российским историческим обществом и ПАО "Сбербанк". В Санкт-Петербургском институте истории РАН была сформирована рабочая группа, состоящая из научных сотрудников - специалистов по истории Петровской эпохи, палеографии и археографии.

Активные поиски в области компьютерного транскрибирования рукописного текста ведут сегодня крупные европейские научные центры. Наиболее известна платформа Transkribus, предназначенная для машинного чтения древних рукописей4. Она включает в себя более 120 общедоступных моделей распознавания текстов, в том числе две модели для русских рукописных текстов XIX и XX вв. 5 Transkribus также позволяет обрабатывать документы, написанные ранними формами кириллического письма - уставом и полууставом. Однако моделей, предназначенных для чтения русской скорописи, которой написан основной массив делопроизводственной документации XV - начала XVIII в., на платформе не создано.

В чем суть и как это работает

В собраниях Санкт-Петербургского института истории РАН и Российского государственного архива древних актов исследователи выявили и отобрали различные документы с 1709 по 1713 г. Основным критерием стало наличие текста, написанного рукой Петра I: иногда это всего два-три слова, а иногда несколько страниц.

Была выработана методика передачи текста петровских автографов для последующей компьютерной обработки. Главной задачей стало максимально точно передать все знаки (буквы), которые использовал Петр I. Компьютерному набору подлежал собственноручный текст государя в документе, в том числе и зачеркнутые буквы, слова и предложения. Каждой строке присваивался номер. Таким образом было выделено 9656 строк.

Следующий этап работы начался после загрузки цифровых копий в среду разметки изображений Computer Vision Annotation Tool. Было необходимо построчно их разметить и передать сотрудникам ПАО "Сбербанк" для дальнейшей обработки. На этом этапе к проекту подключились стажеры, аспиранты и магистранты Научно-исследовательского университета "Высшая школа экономики", обучающиеся в Москве и Санкт-Петербурге6.

Итогом стала компьютерная программа, которая размещена на сайте Digital Петр api.sbersight.ru/digital-petr. На его стартовой странице показаны образцы машинного чтения петровских документов и описан алгоритм выполнения задачи. На второй странице можно загрузить новые тексты для их расшифровки. Уже спустя несколько секунд после загрузки цифровой копии прямо на глазах возникает текст транскрипции. Он дается построчно, строки пронумерованы. При нажатии строка выделяется сиреневым цветом и появляется цветовая подсветка ее аналога в цифровой копии. Можно даже "посоревноваться" с машиной, кто лучше разбирает петровский почерк!

Испытание программы

Для тестирования программы загружаем на сайт письмо-указ Петра I Ф.М. Апраксину о пожаловании его деревней Мокрый Буерак в Лебедянском уезде, хранящийся в Научно-историческом архиве Санкт-Петербургского института истории РАН. Основной текст документа написан собственноручно государем, но приписка, возможно, выполнена другой рукой. Программа должна "узнать" петровский почерк и распознать только его.

В петровском автографе 10 строк и 122 буквы, из них девять написаны над строкой. Искусственный интеллект распознал их за десять секунд и представил результат на экране. Все слова транскрибированы. "Увидел" искусственный интеллект и отсутствующие в современном нам алфавите буквы "ѣ" и "i", а выносные буквы внес в строку. Поставленная задача успешно выполнена!

Но удалось ли искусственному интеллекту правильно распознать петровский автограф? Специалист-палеограф в транскрипции увидел четыре неточности (см. рис. 5). Из 122 букв петровского текста компьютер пропустил только четыре. Вероятно, компьютер "решил", что правка во второй строке выполнена не рукой Петра I. При загрузке документов с незнакомой лексикой пополняется словарь и знания программы. Подведем итог: при транскрибировании компьютером смысл документа не был искажен, и работа по редактированию текста заняла считанные секунды!

Тексты письма Петра I. Слева: транскрибированный на сайте Digital Петр, справа: транскрибированный человеком.

Независимые тестирования показали, что созданный для машинного чтения автографов Петра I алгоритм безошибочно распознает до 98% текста. Прочитанный искусственным интеллектом документ можно скачать с сайта, проверить, расставить знаки препинания и использовать в дальнейшей работе. Распознанием автографов одного человека возможности разработанной в России модели не ограничиваются: она способна быстро обучаться на новом почерке. "Птенцы гнезда Петрова" - П.А. Толстой, П.П. Шафиров, Б.И. Куракин и другие - тоже писали много и неразборчиво...

"Всем привет, господа читатели!"

Основной задачей программы являлось распознавание текстов Петра I. Но одновременно возникла проблема генерирования произвольного текста, написанного почерком первого российского императора. Для ее решения были созданы два различных подхода. Первый состоит в том, что модель вырезает из исходных текстов отдельные слова или части слов, длиной в несколько символов и запоминает их7. В итоге получается большой набор шаблонов, состоящих из вырезанных частей исходного изображения. Из них можно составить, или лучше сказать - склеить, изображение для вводимого в компьютер текста. Эта программа представлена на сайте: http://sberai.vispstudio.ru/#/digital-peter-handwrite. Любой пользователь может зайти на него, ввести в поле слова или фразы, затем нажать на кнопку "Написать" и справа появится текст, выполненный "почерком Петра I" на фоне листа пергамента. Вот пример генерации текста: "Всем привет, господа читатели" (см. рис. 6).

Текст, сгенерированный на основе метода StackMix.

Второй подход основан на так называемых генеративно-состязательных сетях8. В отличие от первого алгоритма, который, по сути, склеивает из кусочков имеющихся данных новые слова, второй подход генерирует изображение с нуля, причем старается сгладить переход от одного символа к другому так, чтобы итоговый результат выглядел реалистично. Ниже представлен пример генерации с помощью второго алгоритма фразы "Всем привет, дорогие читатели" (см. рис. 7). Текст получился более плавным, чем в результате работы первого алгоритма.

Текст, сгенерированный на основе модели ScrabbleGAN.

По данной ссылке интересующийся читатель может сам попробовать сгенерировать произвольный текст почерком Петра Великого: http://sberai.vispstudio.ru/#/fb/4.

  • 1. Богословский М.М. Петр Великий по его письмам // Сборник статей в честь Матвея Кузьмича Любавского / при участии: Д. Балагея, Е. Барсова, С. Бахрушина и др. Пг., 1917. С. 224.
  • 2. Corespondance de Napoleon I / Publ. par ordre de l empereur Napoleon III. Paris, 1858-1870. T. 1-32.
  • 3. Письма и бумаги императора Петра Великого. СПб., 1887. Т. 1. https://www.prlib.ru/item/357388
  • 4. Transkribus // Read-Coop SCE. [Электронный ресурс]. Режим доступа: https://readcoop.eu/transkribus/ (дата обращения 25.02.2022).
  • 5. Доступ к 120 моделям открывается после скачивания на сайте https://readcoop.eu/transkribus/ специализированного программного обеспечения.
  • 6. Подробнее см.: Базарова Т.А., Димитров Д.В., Потанин М.С., Проскурякова М.Е. Распознать и транскрибировать: Автографы Петра Великого и технологии искусственного интеллекта // Воронцово поле. 2020. N 4. С. 36-41.
  • 7. Подробнее см. статью: Shonenkov A., Karachev D., Novopoltsev M., Potanin M., Dimitrov D. StackMix and Blot Augmentations for Handwritten Text Recognition. [Электронная статья]. URL: https://arxiv.org/pdf/2108.11667v1.pdf (дата обращения 28.02.2022).
  • 8. Подробнее см. статью: Димитров Д., Шоненков А., Потанин М., Газизов М. Обучение рукописей OCR на синте от GAN ов. [Электронная статья]. URL: https://habr.com/ru/company/sberbank/blog/589537 (дата обращения 28.02.2022).