Сибирские ученые начали расшифровку старинных книг при помощи нейросети

В Институте монголоведения, буддологии и тибетологии СО РАН хранится более 100 тысяч различных старинных документов на тибетском и монгольском языках. Это настоящий кладезь древней мудрости. Но лишь малая часть текстов переведена на русский язык. Сейчас расшифровку уникальных источников начали ученые центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН и программисты Новосибирского государственного университета. Для этого они привлекли систему искусственного интеллекта.
GettyImages

- В данный момент мы учим ее читать по-тибетски, - говорит директор института, академик Борис Базаров. - Для этого отсканировали 500 страниц рукописей и ксилографов (древние книги, напечатанные с досок), а затем вручную набрали их на латинице, используя, в основном, систему "Вайли", принятую для преобразования тибетского письма в буквы латинского алфавита.

Особенность тибетской письменности в том, что она слоговая, а не буквенная

Эти 500 страниц стали "учебным пособием" для нейросети, которую программисты научили запоминать изображение и соотносить его с сопутствующим текстом. Кстати, на обучение ушло всего два часа. А потом нейросеть прошла экзамен. Она сумела распознать тибетские тексты с точностью 94 процента. Но ученых она не удовлетворяет.

- Особенность тибетской письменности заключается в том, что она слоговая, а не буквенная, - пояснил руководитель Центра восточных рукописей Олег Ринчинов. - А ксилографы от других источников отличает неоднородность изображения - где-то оттиск с доски четкий, а где-то бледный. К тому же над источниками поработало время. Поэтому пока достигнута не самая высокая точность распознавания текстов.

По мнению ученых, этот показатель можно довести и до 99 процентов, но за каждый дополнительный процент потребуется серьезно работать. К примеру, чтобы увеличить ее до 95 процентов, понадобится "учить" нейросеть на дополнительной тысяче примеров, а с 95 до 96 процентов - уже на 10 тысячах. Поэтому ручная транслитерация с тибетского на латиницу продолжается - проект продлен минимум на пять лет. Кстати, для сравнения, профессиональному переводчику-тибетологу требуется от трех до десяти лет на перевод одного произведения.

- Это первый в мире опыт дешифровки тибетских текстов, - уверен академик Базаров. - Перевод канонических, дидактических, медицинских текстов даст более адекватное представление о древнем знании, позволит ввести в оборот колоссальный материал. Поэтому проект продлен и все наши усилия сейчас направлены на повышение точности распознавания текстов. После этого с помощью нейросети мы сможем легко переводить первоисточники на другие языки.

Посетившие институт президент РАН Александр Сергеев и председатель СО РАН академик Валентин Пармон высоко оценили потенциал хранилища древней мудрости не только с культурологической, но и с практической стороны. Например, по мнению Александра Сергеева, рецепты, содержащиеся в медицинских книгах, могут быть использованы для изготовления биологически активных добавок и даже лекарственных препаратов. Особенно актуальным это становится в преддверии создания на территории Республики Бурятия биомедицинского кластера.

- В 2015 году китайский фармаколог Ту Юю получила Нобелевскую премию за открытие нового средства для лечения малярии. Этот препарат значительно снизил уровень смертности среди заболевших малярией. Получают его из полыни, - привел один из самых ярких примеров использования древних знаний в современности Борис Базаров. - А ведь существует трактат об охлажденной полыни древнего тибетского автора. Сколько еще открытий для пользы человечеству таит в себе тибетская мудрость? Скоро узнаем. А когда отработаем этот алгоритм, добьемся стабильно работающей системы, то обязательно займемся дешифровкой и старомонгольских текстов. Уверен, и в этом направлении нас тоже ждет научный прорыв.

Справка "РГ"

Институт монголоведения, буддологии и тибетологии СО РАН обладает одним из крупнейших в мире собранием старинных книг на тибетском и монгольском языках, архивных документов, аудиозаписей, фотографий, видеозаписей. Эти раритеты собирались 100 лет. Всего в фондах - более 100 тысяч письменных памятников на тибетском языке и 7 тысяч - на старописьменном монгольском. Это философская, медицинская, религиозная литература. Самые старые из документов датированы XVI веком, а тексты в них - еще старше. Среди собрания раритетов около 170 отдельных медицинских сочинений, посвященных медитативным техникам, акупунктуре, хирургии, фармакологии. Из них только 10 процентов переведены на русский язык.