Нейросеть "Яндекса" расшифровала более 10 млн страниц исторических документов

Сервис "Поиск по архивам" компании "Яндекс" поделился статистикой о своей работе за год, прошедший с момента релиза.

За этот период пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз.

Первым партнёром площадки стал Главархив Москвы. Именно на предоставленных им текстах нейросетка обучалась расшифровывать устаревшие символы и рукописи. На данный момент в базу загружено более 5,4 млн страниц исторических материалов из Главархива Москвы — это больше половины всех документов сервиса.

Сейчас на платформе представлены документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего машинные алгоритмы отечественного поисковика распознали более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: в сумме это более 10 млн страниц или 492 млн строк. В этих текстах хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в России до революции.

Кроме того, в сервисе собраны 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на низкоплотной бумаге.