22.10.2022 09:00
Поделиться

Голосовой помощник научили распознавать голоса. Как это изменит нашу жизнь

Голосовой помощник "Алиса" к своему пятому дню рождения научился различать пользователей по голосу. Как утверждают в "Яндексе", это решит одну из главных проблем, существующих сегодня у голосовых помощников, и позволит использовать технологию более широко.
Все рутинные процессы а-ля "включить/выключить технику", которые мы выполняем, например, перед уходом из дома на работу, можно свести к одной фразе и поручить голосовому помощнику.
Все рутинные процессы а-ля "включить/выключить технику", которые мы выполняем, например, перед уходом из дома на работу, можно свести к одной фразе и поручить голосовому помощнику. / РИА Новости

Кого должен слушаться пылесос

Голосовой помощник сегодня - это не только забавная колонка, которая умеет включать музыку и сообщать время. Это устройство задумано в качестве центра системы "умный дом" и должно там управлять всеми "умными" устройствами - от освещения и теплых полов до холодильника и пылесоса.

"Умный дом" уже не включит духовку по команде ребенка

И в этом смысле более гибкая коммуникация крайне важна - та же "Алиса", созданная в "Яндексе", до того, как научиться распознавать разные голоса, научилась говорить шепотом и воспринимать его. В результате система гораздо лучше понимает контекст и может запускать различные сценарии в зависимости от него. А различение голосов позволяет персонифицировать результаты, и не важно, касается это воспроизведения музыки или запуска освещения или бытовой техники.

Для примера - взрослый голос может запускать пылесос, а детский - не должен. Важна персонификация и при выдаче результатов поиска, например, в музыке. Раньше голосовой помощник старался учесть вкусы всех членов семьи, смешивая их любимые треки - в итоге им не всегда удавалось слушать только то, что нравится. А если владелец устройства просил Алису запомнить свой голос, остальные уже не могли ставить лайки и добавлять треки в избранное. Теперь любой член семьи может сказать: "Алиса, мне нравится" - и она добавит трек именно в его плейлист. Каждый сможет слушать свою любимую музыку и персональный поток треков.

"Колонка с Алисой - это семейный девайс. С ней общаются мамы и папы, подростки и люди пожилого возраста. У каждого свои музыкальные пристрастия, поэтому так важно, чтобы Алиса узнавала по голосу всех членов семьи", - поясняет Сергей Мельник, руководитель "Алисы" и умных устройств "Яндекса".

Алиса может запомнить до пяти членов семьи, включая владельца устройства. Для этого ему нужно попросить близких скачать приложение "Дом с Алисой" и пригласить их управлять "умным" домом. После этого члены семьи смогут познакомиться с Алисой, чтобы она запомнила их голоса.

Трудности перевода

Речь - один из самых естественных способов коммуникации между людьми, но в силу его гибкости и адаптивности - один из самых сложных для коммуникации с машинами. Мозг человека способен ориентироваться на интонацию, на контекст, на содержание всего разговора в целом, на отсылки к прежним дискуссиям, на крылатые фразы, на сарказм. Он способен восполнять нерасслышанные или неверно услышанные слова и многое другое. Причем это происходит для нас самым естественным образом. Мы ПРОСТО ПОНИМАЕМ, что нам хотели сказать.

С машинами или голосовыми помощниками - не так. Они не слышат речь в нашем понимании этого слова. Сказанные пользователем слова попадают в систему, подключенную через интернет к "облачным" серверам, как звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга.

Затем нейросеть делит слова на звуковые фрагменты. А затем уже фрагменты - на маленькие частички речи длиной в сотые доли секунды. Это позволяет в дальнейшем обрабатывать эту информацию параллельно, экономя время.

Но распознать речь и превратить ее в текст недостаточно. Нужно понять, какого ответа ждет пользователь. Для этого существует классификатор намерений. Его задача - определить, что человек хотел сказать своей фразой.

Например, если пользователь спросил: "Будет ли завтра холодно", то голосовой помощник должен понять, что речь идет о погоде. Здесь для работы применяют обученные на больших данных представления слов, которые позволяют понять, в каком контексте эти слова обычно используются.

Затем в дело вступает еще один элемент, который поймет, что завтра - это конкретное число, на которое нужен прогноз. Допустим, 25 октября. А еще, чтобы понять, где именно вас интересует погода, помощник возьмет данные из геолокации. Допустим, это город или даже какой-то район этого города.

Это, кстати, ответ на вопрос, зачем многие приложения на смартфоне или компьютере просят доступ к информации, которая, как нам кажется, им в работе совсем не нужна.

Переходим к неформальному общению

А что же делать, если ни один из возможных ответов не подошел к полученному запросу? Тогда включается режим неформального общения.

Именно он обычно кажется самым забавным. Здесь можно даже попытаться поругаться с помощником. У каждого голосового ассистента есть личность: пол, имя, черты характера и стиль речи.

Для ответа на такие вопросы голосовые помощники используют нейросети, обученные на базе текстов из СМИ и кино. И зачастую могут научиться совсем не тому, чего хотели бы разработчики. Иногда помощник может нахамить или отшутиться неполиткорректной шуткой.

Кто включит собаке радио

А теперь вернемся к тому, зачем это все. Если задуматься, то наши действия подчинены рутине. Кому-то это покажется очень грустным, но это действительно так. Мы просыпаемся, идем чистить зубы, включая свет в ванной или гостиной, затем включаем телевизор, закрываем или открываем шторы, включаем чайник, включаем или выключаем кондиционер, включаем или выключаем музыку и многое другое. А когда уходим из дома, то гасим свет, включаем посудомойку, возможно, сделаем чуть послабее нагрев теплых полов или выключим кондиционер, проверяем, выключен ли утюг. Я, например, включаю радио, чтобы собаке не было грустно.

А теперь представьте, что все эти действия можно собрать в сценарий, который будет запускаться фразой "Алиса, мы уходим". Или "Алиса, мы дома". Фантастика? Но это уже работает сегодня.

"Умный дом" еще 5-6 лет назад сводился к нескольким достаточно примитивным датчикам, которые что-то могли очень условно. Допустим, к камере, которая позволяла фиксировать движение дома в ваше отсутствие и могла прислать СМС-сообщение.

Сегодня возможности "умного дома" ограничены лишь той глубиной, на которую вы готовы интегрировать его в свой дом. И все чаще это делается на этапе капитального ремонта, когда датчики и блоки управления ставятся на системы вентиляции, отопления, водоснабжения, пожаротушения, освещения, электроснабжения и канализации. Когда можно выбрать - вешать обычные карнизы или "умные" со специальными моторами, запускаемыми голосом.

И это уже не научная фантастика из фильмов про будущее, а несколько отделов в магазине "все для ремонта". А в центре всего перечисленного - голосовой помощник, который научился распознавать голоса и теперь не включит духовку по команде 5-летнего ребенка.

Кстати

Ай-Да пока не может без подсказок

Фото: REUTERS

Распознавание голоса можно использовать и в проектах, как человекоподобный робот-художник Ай-Да, который выступил в Британской палате лордов. Пока что ораторские таланты робота оставляют желать лучшего: его спутник и изобретатель галерист Эйдан Меллер признался, что вопросы гуманоиду отправил заранее, дабы тот мог как следует подготовиться. В будущем этого можно будет избежать в том числе и с использованием таких разработок, как у "Яндекса".