Сотрудники Нижегородского филиала Высшей школы экономики (ВШЭ) создали нейронную сеть, способную определять, с какой интонацией были произнесены те или иные слова.
Разработчики представили доклад с результатами своего исследования на международной конференции "Neuroinformatics-2017", сообщается на сайте ВШЭ.
Эмоциональная составляющая важна для передачи смысла порой не меньше, чем сами слова. К примеру, на вопрос "Как дела?" человек может ответить: "Лучше всех", но произнести это радостно, нейтрально или угрюмо, с сарказмом в голосе. Соответственно, и означать сказанное будет совершенно разное.
Сотрудники ВШЭ обучили нейронную сеть распознавать восемь различных эмоций: злость, грусть, спокойствие, нейтральность, счастье, испуг, удивление, отвращение. Пока что программа справляется с поставленной задачей в 70 процентах случаев. Лучше ей удается работать с нейтральными и спокойными интонациями, тогда как счастье и удивление часто воспринимаются как страх и отвращение соответственно.
Ученые преобразовали звук в спектрограммы, что позволило работать с информацией методами, применяемыми для распознавания изображений. В исследовании использовалась сверточная нейронная сеть глубокого обучения с архитектурой VGG-16.
Как уже сообщала "РГ", ранее российские разработчики заняли первое место в соревновании по распознаванию лиц, которое проводилось американским Агентством передовых исследований в сфере разведки.