05.04.2022 22:52
Общество

Сибирские ученые начали расшифровку старинных книг при помощи нейросети

Текст:  Ирина Штерман ("Российская газета", Иркутск)
Российская газета - Федеральный выпуск: №73 (8721)
В Институте монголоведения, буддологии и тибетологии СО РАН хранится более 100 тысяч различных старинных документов на тибетском и монгольском языках. Это настоящий кладезь древней мудрости. Но лишь малая часть текстов переведена на русский язык. Сейчас расшифровку уникальных источников начали ученые центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН и программисты Новосибирского государственного университета. Для этого они привлекли систему искусственного интеллекта.
/ GettyImages
Читать на сайте RG.RU

- В данный момент мы учим ее читать по-тибетски, - говорит директор института, академик Борис Базаров. - Для этого отсканировали 500 страниц рукописей и ксилографов (древние книги, напечатанные с досок), а затем вручную набрали их на латинице, используя, в основном, систему "Вайли", принятую для преобразования тибетского письма в буквы латинского алфавита.

Особенность тибетской письменности в том, что она слоговая, а не буквенная

Эти 500 страниц стали "учебным пособием" для нейросети, которую программисты научили запоминать изображение и соотносить его с сопутствующим текстом. Кстати, на обучение ушло всего два часа. А потом нейросеть прошла экзамен. Она сумела распознать тибетские тексты с точностью 94 процента. Но ученых она не удовлетворяет.

- Особенность тибетской письменности заключается в том, что она слоговая, а не буквенная, - пояснил руководитель Центра восточных рукописей Олег Ринчинов. - А ксилографы от других источников отличает неоднородность изображения - где-то оттиск с доски четкий, а где-то бледный. К тому же над источниками поработало время. Поэтому пока достигнута не самая высокая точность распознавания текстов.

По мнению ученых, этот показатель можно довести и до 99 процентов, но за каждый дополнительный процент потребуется серьезно работать. К примеру, чтобы увеличить ее до 95 процентов, понадобится "учить" нейросеть на дополнительной тысяче примеров, а с 95 до 96 процентов - уже на 10 тысячах. Поэтому ручная транслитерация с тибетского на латиницу продолжается - проект продлен минимум на пять лет. Кстати, для сравнения, профессиональному переводчику-тибетологу требуется от трех до десяти лет на перевод одного произведения.

- Это первый в мире опыт дешифровки тибетских текстов, - уверен академик Базаров. - Перевод канонических, дидактических, медицинских текстов даст более адекватное представление о древнем знании, позволит ввести в оборот колоссальный материал. Поэтому проект продлен и все наши усилия сейчас направлены на повышение точности распознавания текстов. После этого с помощью нейросети мы сможем легко переводить первоисточники на другие языки.

Ярославские специалисты научили нейросети ставить диагнозы

Посетившие институт президент РАН Александр Сергеев и председатель СО РАН академик Валентин Пармон высоко оценили потенциал хранилища древней мудрости не только с культурологической, но и с практической стороны. Например, по мнению Александра Сергеева, рецепты, содержащиеся в медицинских книгах, могут быть использованы для изготовления биологически активных добавок и даже лекарственных препаратов. Особенно актуальным это становится в преддверии создания на территории Республики Бурятия биомедицинского кластера.

- В 2015 году китайский фармаколог Ту Юю получила Нобелевскую премию за открытие нового средства для лечения малярии. Этот препарат значительно снизил уровень смертности среди заболевших малярией. Получают его из полыни, - привел один из самых ярких примеров использования древних знаний в современности Борис Базаров. - А ведь существует трактат об охлажденной полыни древнего тибетского автора. Сколько еще открытий для пользы человечеству таит в себе тибетская мудрость? Скоро узнаем. А когда отработаем этот алгоритм, добьемся стабильно работающей системы, то обязательно займемся дешифровкой и старомонгольских текстов. Уверен, и в этом направлении нас тоже ждет научный прорыв.

Справка "РГ"

Институт монголоведения, буддологии и тибетологии СО РАН обладает одним из крупнейших в мире собранием старинных книг на тибетском и монгольском языках, архивных документов, аудиозаписей, фотографий, видеозаписей. Эти раритеты собирались 100 лет. Всего в фондах - более 100 тысяч письменных памятников на тибетском языке и 7 тысяч - на старописьменном монгольском. Это философская, медицинская, религиозная литература. Самые старые из документов датированы XVI веком, а тексты в них - еще старше. Среди собрания раритетов около 170 отдельных медицинских сочинений, посвященных медитативным техникам, акупунктуре, хирургии, фармакологии. Из них только 10 процентов переведены на русский язык.

Наука Бурятия Новосибирск РАН Дальний Восток Сибирь