Нейросеть "Яндекса" расшифровала более 10 млн страниц исторических документов
За этот период пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз.
Первым партнёром площадки стал Главархив Москвы. Именно на предоставленных им текстах нейросетка обучалась расшифровывать устаревшие символы и рукописи. На данный момент в базу загружено более 5,4 млн страниц исторических материалов из Главархива Москвы — это больше половины всех документов сервиса.
Сейчас на платформе представлены документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего машинные алгоритмы отечественного поисковика распознали более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: в сумме это более 10 млн страниц или 492 млн строк. В этих текстах хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в России до революции.
Кроме того, в сервисе собраны 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.
Технология расшифровки основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на низкоплотной бумаге.