Распознавание речи является важной задачей для компьютерных автоматических систем. Современные технологии позволяют формировать субтитры, давать пересказ основных мыслей. Но работа усложняется, когда человек ярко выражает эмоции, плачет или громко кричит. Ученые университета нашли способ для решения этой проблемы, пишет ТАСС со ссылкой на пресс-службу вуза. Они смогли обучить русскоязычную модель распознавания речи профессора Новосибирского государственного университета Ивана Бондаренко.
Специалисты обработали более 26 часов интервью с жертвами Холокоста. Для этого составили социолингвистическую разметку, определили пол, возраст, примерный регион происхождения и родной язык интервьюируемых. Как объяснили эксперты, эти признаки существенно влияют на то, с каким акцентом люди говорят, какую лексику используют и как их речь будет распознаваться автоматическими моделями.
По словам магистранта кафедры математической лингвистики университета Михаила Долгушина, использовали предобученную на русском языке глубокую нейросеть Wav2Vec 2.0. Цель - выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита. Данная архитектура нейросети использует и так называемый механизм внимания, для того чтобы научиться "обращать внимание" на значимые для определения той или иной буквы по звуку признаки. Это повысило качество результата.