Дальневосточные ученые оцифруют русский язык

В Школе цифровой экономики Дальневосточного федерального университета создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта, сообщают Новости Hi-Tech.
iStock

Цифровой менеджер будет хорошо говорить по-русски, то есть поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи.

К слову, на подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

"Серьезным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнером по машинному обучению, который предоставит нам технологию цифровой разметки материала", - прокомментировал директор Школы цифровой экономики Илья Мирин.

Эксперт объяснил, что фактически речь идет о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути - собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

На первом этапе к работе будут привлечены волонтеры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесенные фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесенных естественным образом.

"На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные - практически вымерли. Сегодня мы говорим о новой письменности - формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины - от микроволновок и принтеров до автомобилей и промышленных роботов, - скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети", - объяснил Илья Мирин.

Справка "РГ" :

Проект будущего реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы "Искусственный интеллект и большие данные". Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.