Как устроены машины, говорящие с нами по телефону совсем как люди
Сегодня существует три основных типа телефонных роботов: роботы на DTMF-сигналах, роботы с простейшим распознаванием речи и роботы на так называемых Machine Learning-моделях.
Роботы на DTMF-сигналах - самая примитивная и дольше всего существующая модель. Это именно тот случай, когда голос вам говорит "для соединения с оператором нажмите ноль". Как правило, они используются в кол-центрах и на простейших виртуальных автоматических телефонных станциях (АТС).
Роботы с простейшим распознаванием речи - то, что больше всего раздражает пользователей. Классический робот такого типа либо задает вам так называемый закрытый вопрос, на который можно ответить одним из предложенных вариантов. Либо же пытается угадать и вычленить из вашего ответа некое слово, которое позволит пустить вас на следующий уровень алгоритма. Пробиться через такую систему зачастую попросту невозможно, и самая большая удача, если в какой-то момент вам все-таки предлагают в качестве одного из вариантов позвать оператора.
Machine Learning или ML-модели - это самый передовой тип таких роботов. Это по сути своей нейросеть, которая может улавливать смысл того, что ей говорит собеседник. И, соответственно, осмысленно отвечать. Вторая особенность роботов такого типа в том, что благодаря нейросетям робот может не воспроизводить те или иные предзаписанные слова из библиотеки, а генерировать связную речь, которая звучит гораздо более естественно. Например, именно так работает большинство голосовых помощников вроде "Алисы". Или роботов-автоответчиков.
В основе этого так называемые NLP-системы. NLP - от Natural Language Processing, обработка естественного языка. Процесс машинного понимания с применением алгоритмов обработки естественного языка может выглядеть так:
- Речь человека записывается аудиоустройством.
- Машина преобразует слова из аудио в письменный текст.
- Система NLP разбирает текст на составляющие, понимает контекст беседы и цели человека.
- С учетом результатов работы NLP машина определяет команду, которая должна быть выполнена.
Алгоритмы обучают не только словам и их значениям, но и структуре фраз, внутренней логике языка, пониманию контекста. Именно благодаря этим возможностям система может понимать смысл фраз вроде "Я надел костюм. Он был синий". И что "он" относится к "костюму". Что пауза между предложениями не означает завершение разговора. И многое другое.
Использование таких систем вместо живых операторов кол-центров позволяет компаниям существенно сэкономить. Так, представители "Тинькофф" рассказывали, что чат-бот на базе Tinkoff.Voicekit оказался в три раза дешевле собственного оператора контактного центра: 4 руб./ минута против 12 руб./минута. Что на фоне 6 млн звонков каждый месяц дает более чем заметную экономию.
Не менее эффектно выглядит и использование робота с другими сервисами. Так, голосовой помощник "Олег" может принимать, записывать и расшифровывать в текст входящие звонки, в том числе от неизвестных номеров. Он умеет поддерживать осмысленный диалог, воспроизводя нужный сценарий разговора в зависимости от слов собеседника. Может определять категорию звонка (спам, мошенники, звонок из компании, полезный звонок), шутить и даже троллить спамеров.
Интересно и то, что сегодня на рынке представлены и системы "под ключ", позволяющие получить собственного голосового робота, который будет говорить нужным голосом. Например, система Yandex SpeechKit обучается на базе 50 часов записей реального человека, а после способна воспроизводить его голосом любой текст. Цена же таких сервисов начинается от 150 тыс. рублей, что делает их доступными даже для небольшого бизнеса.
Так что можно ожидать, что с каждым годом использование систем искусственного интеллекта в качестве профессиональных собеседников будет только увеличиваться.