
"Психоэмоциональное воздействие редко выглядит как открытая угроза. Чаще это тонкие манипуляции, когда создают ощущение срочности. Всем знакома фраза: "Вам нужно срочно перевести деньги", которая имитирует официальный статус с помощью речевых конструкций, - рассказывает разработчик проекта, аспирант Астраханского государственного технического университета Кирилл Кузовлев. - Из известных приемов - давление через паузы и особый темп речи. Именно поэтому анализировать только текст разговора недостаточно, нужно учитывать, как это говорится".
Новая нейросетевая модель работает на трех уровнях одновременно, поясняет молодой ученый. Первая ветвь оценивает акустические характеристики: темп, паузы, интенсивность, эмоциональную напряженность, ритм. Вторая переводит речь в текст и ищет в нем смысловые маркеры давления, принуждения и манипуляции. Третья анализирует интонацию, повторяемость конструкций, тембр и высоту тона.
"Человек на том конце провода может напрямую оказывать психологическое воздействие. А может быть и так, что разговор ведется на спокойной ноте, без угрожающих интонаций. Три ветви позволяют запускать анализ и последовательно, и параллельно. Именно такая автоматическая система распознавания телефонных манипуляторов, учитывающая множество факторов, предлагается впервые в мире", - говорит Кирилл Кузовлев.
Для начала анализа записи нейросеть подавляет шумы, нормализует громкость и проверяет качество сигнала. В работу идут не только речь и голос, но и фоновые звуки, и даже тишина в разговоре. По итогам формируется вероятностная оценка уровня риска - от минимального до критического, с указанием признаков, которые повлияли на результат.
"Система не ставит окончательный диагноз - она формирует вероятностную оценку и передает запись на экспертную проверку. Алгоритм выделяет приоритеты, но принимает решение человек", - подчеркивает разработчик.
Как пояснила научный руководитель проекта, заведующая кафедрой АГТУ Валентина Кузнецова, данная технология уже прошла апробацию на массиве из 10 тысяч телефонных записей общей длительностью более 1,2 тысячи часов.
"В результате объем ручного прослушивания записей сократился примерно на 91 процент. Тема крайне актуальна, объем аудиоконтента в цифровой среде растет очень быстро, а комплексных инструментов автоматического выявления психоэмоционального воздействия практически нет", - отмечает научный руководитель проекта.
Сейчас завершается этап тестирования и дообучения модели. В планах разработчиков - адаптация системы для силовых структур, кол-центров и сетевых АТС, а также интеграция с действующими телефонными платформами.