Как устроены машины, говорящие с нами по телефону совсем как люди

Последнее время часто при звонке в организацию или просто на обычный телефонный номер можно оказаться в ситуации, когда на другом конце отвечает вроде бы человек. Вы начинаете общаться, а потом в какой-то момент бодрый голос внезапно сообщает, что для ответа на вопрос он лучше позовет оператора. В этот момент и понимаешь, что до этого мило общался не совсем с человеком.
Роботы-пылесосы не очень общительны, их главные собеседники обычно - домашние животные. Фото: Philips

Сегодня существует три основных типа телефонных роботов: роботы на DTMF-сигналах, роботы с простейшим распознаванием речи и роботы на так называемых Machine Learning-моделях.

Роботы на DTMF-сигналах - самая примитивная и дольше всего существующая модель. Это именно тот случай, когда голос вам говорит "для соединения с оператором нажмите ноль". Как правило, они используются в кол-центрах и на простейших виртуальных автоматических телефонных станциях (АТС).

Роботы с простейшим распознаванием речи - то, что больше всего раздражает пользователей. Классический робот такого типа либо задает вам так называемый закрытый вопрос, на который можно ответить одним из предложенных вариантов. Либо же пытается угадать и вычленить из вашего ответа некое слово, которое позволит пустить вас на следующий уровень алгоритма. Пробиться через такую систему зачастую попросту невозможно, и самая большая удача, если в какой-то момент вам все-таки предлагают в качестве одного из вариантов позвать оператора.

Machine Learning или ML-модели - это самый передовой тип таких роботов. Это по сути своей нейросеть, которая может улавливать смысл того, что ей говорит собеседник. И, соответственно, осмысленно отвечать. Вторая особенность роботов такого типа в том, что благодаря нейросетям робот может не воспроизводить те или иные предзаписанные слова из библиотеки, а генерировать связную речь, которая звучит гораздо более естественно. Например, именно так работает большинство голосовых помощников вроде "Алисы". Или роботов-автоответчиков.

В основе этого так называемые NLP-системы. NLP - от Natural Language Processing, обработка естественного языка. Процесс машинного понимания с применением алгоритмов обработки естественного языка может выглядеть так:

- Речь человека записывается аудиоустройством.

- Машина преобразует слова из аудио в письменный текст.

- Система NLP разбирает текст на составляющие, понимает контекст беседы и цели человека.

- С учетом результатов работы NLP машина определяет команду, которая должна быть выполнена.

Алгоритмы обучают не только словам и их значениям, но и структуре фраз, внутренней логике языка, пониманию контекста. Именно благодаря этим возможностям система может понимать смысл фраз вроде "Я надел костюм. Он был синий". И что "он" относится к "костюму". Что пауза между предложениями не означает завершение разговора. И многое другое.

Использование таких систем вместо живых операторов кол-центров позволяет компаниям существенно сэкономить. Так, представители "Тинькофф" рассказывали, что чат-бот на базе Tinkoff.Voicekit оказался в три раза дешевле собственного оператора контактного центра: 4 руб./ минута против 12 руб./минута. Что на фоне 6 млн звонков каждый месяц дает более чем заметную экономию.

Современные роботы способны улавливать смысл того, что им говорит собеседник. Они даже понимают, что пауза между предложениями не означает конец разговора

Не менее эффектно выглядит и использование робота с другими сервисами. Так, голосовой помощник "Олег" может принимать, записывать и расшифровывать в текст входящие звонки, в том числе от неизвестных номеров. Он умеет поддерживать осмысленный диалог, воспроизводя нужный сценарий разговора в зависимости от слов собеседника. Может определять категорию звонка (спам, мошенники, звонок из компании, полезный звонок), шутить и даже троллить спамеров.

Интересно и то, что сегодня на рынке представлены и системы "под ключ", позволяющие получить собственного голосового робота, который будет говорить нужным голосом. Например, система Yandex SpeechKit обучается на базе 50 часов записей реального человека, а после способна воспроизводить его голосом любой текст. Цена же таких сервисов начинается от 150 тыс. рублей, что делает их доступными даже для небольшого бизнеса.

Так что можно ожидать, что с каждым годом использование систем искусственного интеллекта в качестве профессиональных собеседников будет только увеличиваться.