05.06.2024 07:00
Поделиться

Голосовой помощник пришел в каждый второй российский дом. Как он работает

Исследования 2022 года показали, что больше половины россиян пользовались хотя бы один раз голосовыми помощниками. Как минимум для того, чтобы найти что-то в Сети, надиктовать текстовое сообщение или построить маршрут на карте. Но какие ответы может дать такой помощник и как оградить себя и близких от вредной информации?
Умная колонка стоит у вас дома, а основная часть ее алгоритмов, "мозгов", находится далеко, где-то в облаке.
Умная колонка стоит у вас дома, а основная часть ее алгоритмов, "мозгов", находится далеко, где-то в облаке. / РИА Новости

Для начала - что такое голосовой помощник. Если вкратце, то это программа, которая позволяет взаимодействовать с разными устройствами с помощью голосовых команд. За последние годы такие программы прошли существенную дистанцию по пути прогресса и сегодня активно используют искусственный интеллект для обработки голосовых инструкций и выполнения нужных действий. Причем используются голосовые помощники как частными лицами, так и крупными компаниями, например в качестве электронных секретарей.

При этом важно понимать, что голосовой помощник - это алгоритм, основная часть которого живет где-то в облаке, в то время как клиентская часть - та, которая общается с нами, может быть где угодно: в ноутбуке, смартфоне, умных часах, телевизоре, ну и, разумеется, - в умной колонке. Голосовой помощник может ответить нам как словом, так и делом. Например, включив или выключив то или иное электронное устройство.

Главное, к чему стремятся голосовые помощники в своем прогрессе, - это понимание так называемого естественного языка. Ведь люди зачастую говорят так, что без того самого навыка "понимать с полуслова" и не разобраться. В общении с другими людьми мы опускаем общеизвестные детали, контекст, используем синонимы, упрощения. Судите сами: когда мы спрашиваем помощника, какая погода будет завтра, то опускаем такие очевидные для нас нюансы, как то, что нас интересует погода в Москве, а завтра - это плюс один день к сегодняшнему числу.

А можем спросить вообще что-то вроде "че там с погодой?". И голосовой помощник должен трансформировать эти "че" и "там" и "с погодой" в корректный запрос, чтобы затем найти и выдать на него нужный нам ответ.

Вот собственно этим и занимается искусственный интеллект. В то же время задачи вроде распознавания голоса или затем воспроизведения найденной информации голосом - гораздо более прозаичные.

Вначале голосовой ассистент должен уловить звук запроса. Когда вы произносите фразу, например, "вызови такси", помощник слышит не набор слов, а звуковой сигнал из гласных и согласных. Обычно процесс захвата нужных звуков осложняют окружающие шумы: человек произносит запрос не в идеальной тишине. Кроме этого, существуют особенности произношения, акценты, региональные диалекты.

Так в прошлом веке представляли "умный"дом будущего - со множеством электронныхпомощников. И, в общем, не ошиблись... Фото: Paul R. Alexander

Внутри помощника слова для начала делят на звуковые фрагменты - фонемы. Затем, для наибольшей точности, фонемы разбивают на фреймы. После обработки получаются коэффициенты, описывающие частотные характеристики входящего звукового сигнала. Только после такого вот перевода с человеческого на машинный ассистент может "предположить", что именно сказал пользователь.

Затем система должна привязать запрос к контексту: то самое местонахождение, число, день, время суток и т.п. Есть и специфические вещи вроде временного контекста: известная сетевая шутка про то, что фразу "мальчик в клубе склеил модель" люди разных поколений могут воспринять очень разным образом, на самом деле совсем не шутка.

После того как голосовой помощник услышал, интерпретировал запрос и нашел информацию на него, ему нужно вернуться с ответом к пользователю. Почти всегда найденная информация - текстовая, поэтому ему необходимо считать ее и озвучить. Чтобы речь звучала естественно, для разработки голоса ассистента приглашают профессиональных дикторов или актеров, которые наговаривают тысячи часов речи. Поначалу ответы системы складывались как конструктор из предзаписанных слов и фраз и поэтому звучали очень неестественно. Но сегодня ответы генерируются системой в режиме реального времени, и по этой причине складывается ощущение, что с нами разговаривает живой человек.

В широком смысле голосовой помощник очень удобен. Можно, не отвлекаясь от других дел, узнать погоду, включить нужную музыку, узнать рецепт, включить таймер или будильник. Более сложные системы, интегрированные в "умный дом", могут включить телевизор или конкретный фильм, управлять светом в доме. Самые продвинутые схемы, известные как "сценарии", позволяют одной командой запускать последовательность действий. Например, как только на улице станет светло, - открыть шторы, приоткрыть окно, включить подогрев пола в ванной.

У этого есть свои риски, так как общаться с помощником могут самые разные люди и даже дети. И то, что окажется приемлемым в общении с одним человеком, будет звучать оскорбительно для другого. По этой причине в том числе помощников учат различать голоса, и в первую очередь вычленять голоса детей, чтобы давать им ответы из базы знаний, которая прошла максимальную проверку. Для этого в составе команд разработчиков может быть психолог, а то и несколько: они анализируют ответы помощника, насколько он безопасен и этичен для пользователя. Ранжируется в соответствии с возрастными ограничениями и контент.

Разработчикам искусственного интеллекта стало окончательно ясно, что нет какого-то универсального знания

События последних лет стали еще одним вызовом для голосовых помощников. Возник ряд вопросов, ответы на которые в различных странах и регионах могут звучат абсолютно по-разному. Как полагают собеседники "РГ", занимающиеся разработкой систем с искусственным интеллектом, стало окончательно очевидно, что нет какого-то универсального знания. В результате неизбежно будут формироваться локальные кластеры, в рамках которых системы должны будут учиться давать ответы на запросы пользователей, опираясь на общественно приемлемые или юридически обоснованные позиции. До тех пор, пока это не произойдет, мы все чаще и чаще будем наблюдать, как голосовые помощники будут находить все новые фигуры умолчания при ответе на сложные вопросы.

Конкретно

Какие голосовые помощники представлены на российском рынке

Алиса - разработка Яндекса. Помощник интегрируется с сервисами Яндекс: Музыка, Карты, Такси, Еда. Ищет информацию. Развлекает пользователя. Переводит тексты на другие языки. С помощью Алисы можно переводить тексты на более чем 100 языков. Взаимодействует с детьми. Читает сказки, объясняет уроки. Управляет другими устройствами - умными лампами, кондиционерами, роботами-пылесосами.

Салют от Сбера. На выбор доступны три персонажа - Джой, Афина и Сбер. У каждого из ассистентов свой характер и особенности, а вот набор функций примерно одинаковый. Среди прочего, доступного другим ассистентам, Салют может перевести деньги и оплатить услуги через приложение Сбера. Доступны и другие возможности экосистемы: музыку Салют загружает из Звука, продукты заказывает через СберМаркет, а кино включает через Okko.

Маруся от VK. По функционалу Маруся похожа на других голосовых помощников, однако здесь сделан заметный акцент на возможностях для детей. В частности, Маруся рассказывает сказки, учит выговаривать буквы, проводит зарядку и много другое. Маруся работает с сервисами VK, например Mail Почтой, VK Музыкой. Заказать еду на дом Маруся предложит через "Самокат" или Delivery Club.