Системы распознавания человеческого голоса появились еще полвека назад - то есть задолго до того, как в обиход вошли привычные нам смартфоны. В 1970-1980-х годах они могли понимать до тысячи слов, точность распознавания выросла до 80-90 процентов. И это был очень хороший результат. Однако с приходом новых технологий, когда у человека возникло желание общаться с компьютером на привычном языке, ситуация изменилась. И хотя команда "Окей, гугл" во многом превзошла ожидания пользователей, до совершенства системе еще далеко.
Ученые из КБНЦ РАН утверждают, что спектральный состав одного и того же звука, произносимого разными людьми, очень отличается. Задача алгоритмов в данном случае - выделить среди множества сигналов отдельные слова и распознать их. По мнению исследователей, многое определяют тембр звукового сигнала, возраст, пол и другие физиологические характеристики людей. Например, чем ниже голос человека, тем медленнее он говорит.
Эти различия и задают вариативность речи, она меняется в зависимости от условий, в которых находится человек в данный момент, а также от акустических особенностей пространства. Повлиять может даже настроение говорящего. Неплохих успехов в этом направлении достигли зарубежные ученые, которые занимаются английским языком и языками германской группы, но пока все исследования ведутся в лабораторных условиях. Что касается других языков, то там автоматические системы гораздо менее эффективны.
- Существующие системы не могут распознавать речь двух рядом стоящих и говорящих одновременно людей. Компьютер не выделяет нужные звуки среди всех остальных, а человек с легкостью справляется с такими задачами. К примеру, сидящий в зале может выделить одного поющего в хоре на сцене и слышать именно его. Эта способность называется эффектом направленного внимания, то есть избирательного восприятия речи, - рассказала корреспонденту "РГ" научный сотрудник Института информатики КБНЦ РАН Ирина Гуртуева.
Кабардино-балкарские ученые, кстати, изучают этот феномен. Сейчас в данной сфере очень много научных работ, и сотрудники КБНЦ, опираясь на последние нейрофизиологические исследования, пытаются усовершенствовать систему распознавания речи.
- Мы спроектировали механизм речевосприятия на основе мультиагентной когнитивной архитектуры. Мультиагенты используются давно, но в нашей области это принципиально новый опыт. Нынешние системы распознавания речи строятся на базе нейросетей, это иная технология, и она, хотя и очень развита и достаточно эффективна, не может понять контекстные ситуации и семантику. Наша система анализирует речь глубже. Агент - это, проще говоря, небольшая программа, но она сложнее, чем нейрон в нейросети. Разные типы агентов, при их использовании, способны максимально повторить работу человеческого мозга и таким образом глубже проанализировать поступающую информацию, - отметила Гуртуева.
Новую систему можно будет использовать при высоком уровне шума, например во время управления тяжелой техникой. Водитель часто находится в стрессе из-за громкого шума, и его голос меняется, что также осложняет распознавание.
Ученые уже создали для своей системы фонетический алфавит с учетом вариативности звуков. Удалось даже зафиксировать вариативность, обусловленную позицией звуков внутри слова. Сотрудники КБНЦ исследовали влияние ударного и безударного положений буквы внутри слова на особенности ее произнесения. Также во время экспериментов зафиксирована вариативность фонетического контекста, влияющего на артикуляцию. И наконец, подготовлены данные для исследования индивидуальных характеристик говорящего. Помогает ученым кавказский языковой колорит, благодаря которому можно сформировать обширную акустическую модель.
- На Кавказе богатое языковое разнообразие, а русский, являющийся общим для всех национальностей, обладает множеством разных акцентов. Так что нам повезло, мы можем создавать речевые базы с учетом большого количества этих акцентов, - пояснила Ирина Гуртуева.
А каковы коммерческие перспективы этих исследований? Дело в том, что интерфейсы распознавания речи сейчас очень популярны. Как рассказал корреспонденту "РГ" разработчик приложений из Ставрополя Антон Ягельницкий, один из основных вариантов их использования - в "умных колонках", которые активно распространяют такие крупные компании, как "Яндекс", Amazon, Mail.ru и др. Конечно, для любителей технических новинок это больше развлечение, но для компаний важно, что с их помощью можно совершать покупки.
- Очень важно умение системы распознавать голоса членов семьи. С моей точки зрения, исследователям необходимо решить три задачи. Первая - качественное распознавание речи детей, чтобы они не могли получить доступ ко взрослому контенту, который можно открыть с колонки либо с привязанного к устройству телевизора. Вторая - распознавание по типу свой/чужой, чтобы посторонние люди не могли получить доступ к системе "умного дома", если к ней привязан голосовой помощник. Третья - при большом скоплении людей (например, на вечеринке) электронный ассистент должен вычленять из общей массы голосов команду, которая обращена к нему - сделать музыку тише или приглушить свет, - объяснил Ягельницкий.
Помимо домашнего использования голосовые интерфейсы также применяются в автомобилях. Водитель может попросить помощника построить маршрут или зачитать список дел на сегодня. При этом в машине может играть музыка. Получается, нужно разделить аудиопотоки и выделить команду человека.
- В Соединенных Штатах недавно был показательный пример. Во время радиотрансляции ведущие начали говорить: "Алекса (голосовой помощник Amazon), закажи такую-то игрушку". У многих людей банковские карты перманентно привязаны к системе "умного дома". И у тех, кто просто слушал радио, голосовой помощник, не разобравшись в том, кто отдал команду, начал ее выполнять, - отметил эксперт.
Сделать речевые системы универсальными сегодня стремятся также крупные фонетические школы Москвы и Санкт-Петербурга, такие компании, как "Яндекс" и "Сбер". На Северном Кавказе решением этих задач занимаются пока только в КБНЦ РАН. .
"Умные колонки" стали самым быстрорастущим сегментом продаж за всю историю мировой электроники. В 2020 году в мире их было продано около 160 миллионов. На конец прошлого года ими уже пользовалось около 400 миллионов человек. По мнению экспертов, с учетом темпов роста рынка к концу 2023-го эта цифра вырастет до 640 миллионов.