09.12.2022 15:30

Отсутствие эмоций и движений в кадре позволят обнаружить дипфейки в Рунете

Олег Капранов,Полина Беспамятнова,Владимир Тихонов

Технология deepfake все более активно всходит в повседневную жизнь. Не так давно VK представила функцию с таким же названием, которая трансформируют лица пользователей в образы знаменитостей практически в реальном времени. В то же время, многие эксперты видят в таких возможностях серьезные угрозы для безопасности.

Обрабатывая индивидуальные точки на лице, нейросеть распознает человека. / iStock

Разработка VK показала, насколько deepfake стал доступным развлечением. Натянуть на себя лицо селебрити и выложить в сториз - наша новая реальность. "Масочки" и фильтры уходят в прошлое. И есть основания полагать, что довольно скоро в наш мир ворвутся "дипфейк-звонки".

"В будущем мы планируем поддержать обработку видео в режиме реального времени и интегрировать технологию в другие наши сервисы, например в VK Звонки. Надеемся, что новая механика поможет нашим пользователям ещё больше экспериментировать с видеоконтентом, в несколько тапов создавать вирусные клипы и видео - и набирать миллионы просмотров", - говорит Александр Тоболь, СТО ВКонтакте, VK Видео и VK Клипов.

Играть с подобными технологиями начали давно. Это сложные алгоритмы, заранее прописанные разработчиками. Но если раньше подобное видео было штучным товаром, сейчас рынок дипфейков уже набрал обороты. Сгенерировать видео и звук стало проще и быстрее. Синтезировать голос, мимику, лицо стало возможно благодаря специализированному ПО, которое совмещает картинку и звук.

Кроме того, уже появилось то, что можно назвать deepfake as a service - специальные приложения, где пошагово расписано, как из своего видео сделать deepfake. Есть предложения от компаний, предлагающих на заказ такие видео производить.

На рынке больших технологических гигантов так же небывалый интерес к теме. Disney активно применяет технологии по замене лиц в своих картинах, Amazon дорабатывает голосового помощника Алису, компания Nvidia предлагает новые услуги для кино и телевидения с использованием синтезированного видео и звука.

Не так давно завирусилось видео с Киану Ривзом, где его образ рекламирует бренд "Тульский пряник". Вышло довольно забавно и весьма похоже. Мимика, жесты известного актера настолько похожи, что сходу не разберешь - он это или фальшивка.

Сотовый оператор "Мегафон" в прошлом году выпустил рекламный ролик, в котором снялся цифровой клон Брюса Уиллиса - все было согласовано с актером, он получил свой гонорар за использование образа и утверждал каждый итоговый креатив. А два месяца назад инвестиционный стартап в сфере недвижимости reAlpha Tech Corp. выпустил маркетинговое видео с участием Илона Маска.

Качественные симуляции позволяют экономить на маркетинговых кампаниях значительные суммы денег, а также расширять творческие возможности. Несанкционированные дипфейки могут считаться злоупотреблением чужой репутацией или брендом.

Так ли безобидны технологии? И как отличить подлинность материалов?

Дипфейки не всегда безобидны по отношению к потребителям. Так, месяц назад пользователи столкнулись с крупной финансовой аферой, связанной с банкротством биржи FTX. В видео, опубликованном под фейковым аккаунтом основателя биржи, говорится о том, что компания "в качестве компенсации" проводит розыгрыш, и каждый может удвоить свои средства, просто отправив желаемую сумму на специальный адрес.

В штате Калифорния принят закон о размещениях deepfake, порочащих репутацию политиков. Это случилось после нашумевшего видео с якобы нетрезвой Нэнси Пелоси, спикером палаты представителей конгресса США. В Китае все Deepfake подлежат обязательной маркировке.

Примечательно, что растущее недоверие к контенту и рост осведомленности о технологии deepfake зачастую приводит к тому, что люди принимают подлинные видеозаписи за поддельные. Так, в июле 2022 года, пользователи интернета начали массово клеймить выступление президента США Джо Байдена фейковым. Люди обратили внимание на то, что президент выглядит иначе на другом видео, опубликованном в тот же день. Как оказалось, причиной различий было освещение, использованное при съемках.

Распознать дипфейки пока еще можно технически. Хотя последнее поколение синтетических видео сгенерированы нейросетями очень качественно и без помощи специальных программ распознавания "вывести на чистую воду" создателей практически невозможно. В то же время дипфейки пока не способны демонстрировать гибкость и жесты настоящего человека. В связи с этим для распознавания подменных видео наиболее эффективен целостный анализ головы и верхней половины тела, нежели наблюдение за лицом. Впрочем, существующие на рынке детекторы дипфейков ориентированы на определение менее интуитивных паттернов, например, различных цветовых оттенков, геометрических отклонений и др.

Практически все IT-гиганты разрабатывают или даже уже тестируют свои решения для распознавания дипфейков. О своем желания борьбы с deepfake недавно заявил Роскомнадзор.

"В первую очередь на наличие признаков deepfake планируется проверять аудиовизуальный контент, распространяемый под видом достоверных сообщений и имеющий высокую социальную или экономическую значимость - публичные выступления и высказывания официальных должностных лиц", - поясняет Роман Коросташов, исполняющий обязанности руководителя Научно-технического центра ФГУП "ГРЧЦ", подведомственного Роскомнадзору.

Одно из таких решений разрабатывают в ИТМО. Технологию оценки состоятельности экспертного мнения назвали "Эксперт". Сервис анализирует визуальную составляющую (само видео/картинку со спикером), акустическую (речь) и расшифровку (речь, переведенную в текст) по ряду характеристик. Анализируется конгруэнтность - насколько то, что говорит человек, соотносится с его жестами и мимикой. Среди остальных факторов анализа агрессивность, уверенность, противоречивость. Тестировали и обучали технологию с использованием дипфейков на английском языке, собранных самостоятельно из открытых источников.

"Испытания модуля конгруэнтности на фальшивых видео показали, что "синтетические" эксперты проявляют низкую эмоциональную согласованность с первых фрагментов видео, и в течение выступления разница между показателями накапливается. В свою очередь, оценка видеомодальности выступления людей с замененным лицом в целом характеризуется низкой динамикой перемен эмоций и малым разбросом между состояниями человека в разных частях видео. Так, оценка конгруэнтности по общей согласованности эмоций человека и анализ частных показателей позволяет не просто выделить неконгруэнтного эксперта, но и указать на неестественность его происхождения (отличить просто неконгруэтного человека от дипфейка)", - говорит Анатолий Медведев, инженер Национального центра когнитивных разработок ИТМО.

Разрабатываемые российскими регуляторами технические средства предполагается использовать для выявления deepfake с учетом действующих положений нормативных правовых актов, в особенности статьи 15.3 Федерального закона от 27.07.2006 №149-ФЗ "Об информации, информационных технологиях и о защите информации". "В ней изложен перечень так называемой "фейковой", недостоверной информации и порядок ограничения доступа к ней. Соответственно, и механизмы реагирования могут применяться те же", - добавляет Коросташов.

#технологии

#нейросети

#интернет