Отсутствие эмоций и движений в кадре позволят обнаружить дипфейки в Рунете
Разработка VK показала, насколько deepfake стал доступным развлечением. Натянуть на себя лицо селебрити и выложить в сториз - наша новая реальность. "Масочки" и фильтры уходят в прошлое. И есть основания полагать, что довольно скоро в наш мир ворвутся "дипфейк-звонки".
"В будущем мы планируем поддержать обработку видео в режиме реального времени и интегрировать технологию в другие наши сервисы, например в VK Звонки. Надеемся, что новая механика поможет нашим пользователям ещё больше экспериментировать с видеоконтентом, в несколько тапов создавать вирусные клипы и видео - и набирать миллионы просмотров", - говорит Александр Тоболь, СТО ВКонтакте, VK Видео и VK Клипов.
Играть с подобными технологиями начали давно. Это сложные алгоритмы, заранее прописанные разработчиками. Но если раньше подобное видео было штучным товаром, сейчас рынок дипфейков уже набрал обороты. Сгенерировать видео и звук стало проще и быстрее. Синтезировать голос, мимику, лицо стало возможно благодаря специализированному ПО, которое совмещает картинку и звук.
Кроме того, уже появилось то, что можно назвать deepfake as a service - специальные приложения, где пошагово расписано, как из своего видео сделать deepfake. Есть предложения от компаний, предлагающих на заказ такие видео производить.
На рынке больших технологических гигантов так же небывалый интерес к теме. Disney активно применяет технологии по замене лиц в своих картинах, Amazon дорабатывает голосового помощника Алису, компания Nvidia предлагает новые услуги для кино и телевидения с использованием синтезированного видео и звука.
Не так давно завирусилось видео с Киану Ривзом, где его образ рекламирует бренд "Тульский пряник". Вышло довольно забавно и весьма похоже. Мимика, жесты известного актера настолько похожи, что сходу не разберешь - он это или фальшивка.
Сотовый оператор "Мегафон" в прошлом году выпустил рекламный ролик, в котором снялся цифровой клон Брюса Уиллиса - все было согласовано с актером, он получил свой гонорар за использование образа и утверждал каждый итоговый креатив. А два месяца назад инвестиционный стартап в сфере недвижимости reAlpha Tech Corp. выпустил маркетинговое видео с участием Илона Маска.
Качественные симуляции позволяют экономить на маркетинговых кампаниях значительные суммы денег, а также расширять творческие возможности. Несанкционированные дипфейки могут считаться злоупотреблением чужой репутацией или брендом.
Так ли безобидны технологии? И как отличить подлинность материалов?
Дипфейки не всегда безобидны по отношению к потребителям. Так, месяц назад пользователи столкнулись с крупной финансовой аферой, связанной с банкротством биржи FTX. В видео, опубликованном под фейковым аккаунтом основателя биржи, говорится о том, что компания "в качестве компенсации" проводит розыгрыш, и каждый может удвоить свои средства, просто отправив желаемую сумму на специальный адрес.
В штате Калифорния принят закон о размещениях deepfake, порочащих репутацию политиков. Это случилось после нашумевшего видео с якобы нетрезвой Нэнси Пелоси, спикером палаты представителей конгресса США. В Китае все Deepfake подлежат обязательной маркировке.
Примечательно, что растущее недоверие к контенту и рост осведомленности о технологии deepfake зачастую приводит к тому, что люди принимают подлинные видеозаписи за поддельные. Так, в июле 2022 года, пользователи интернета начали массово клеймить выступление президента США Джо Байдена фейковым. Люди обратили внимание на то, что президент выглядит иначе на другом видео, опубликованном в тот же день. Как оказалось, причиной различий было освещение, использованное при съемках.
Распознать дипфейки пока еще можно технически. Хотя последнее поколение синтетических видео сгенерированы нейросетями очень качественно и без помощи специальных программ распознавания "вывести на чистую воду" создателей практически невозможно. В то же время дипфейки пока не способны демонстрировать гибкость и жесты настоящего человека. В связи с этим для распознавания подменных видео наиболее эффективен целостный анализ головы и верхней половины тела, нежели наблюдение за лицом. Впрочем, существующие на рынке детекторы дипфейков ориентированы на определение менее интуитивных паттернов, например, различных цветовых оттенков, геометрических отклонений и др.
Практически все IT-гиганты разрабатывают или даже уже тестируют свои решения для распознавания дипфейков. О своем желания борьбы с deepfake недавно заявил Роскомнадзор.
"В первую очередь на наличие признаков deepfake планируется проверять аудиовизуальный контент, распространяемый под видом достоверных сообщений и имеющий высокую социальную или экономическую значимость - публичные выступления и высказывания официальных должностных лиц", - поясняет Роман Коросташов, исполняющий обязанности руководителя Научно-технического центра ФГУП "ГРЧЦ", подведомственного Роскомнадзору.
Одно из таких решений разрабатывают в ИТМО. Технологию оценки состоятельности экспертного мнения назвали "Эксперт". Сервис анализирует визуальную составляющую (само видео/картинку со спикером), акустическую (речь) и расшифровку (речь, переведенную в текст) по ряду характеристик. Анализируется конгруэнтность - насколько то, что говорит человек, соотносится с его жестами и мимикой. Среди остальных факторов анализа агрессивность, уверенность, противоречивость. Тестировали и обучали технологию с использованием дипфейков на английском языке, собранных самостоятельно из открытых источников.
"Испытания модуля конгруэнтности на фальшивых видео показали, что "синтетические" эксперты проявляют низкую эмоциональную согласованность с первых фрагментов видео, и в течение выступления разница между показателями накапливается. В свою очередь, оценка видеомодальности выступления людей с замененным лицом в целом характеризуется низкой динамикой перемен эмоций и малым разбросом между состояниями человека в разных частях видео. Так, оценка конгруэнтности по общей согласованности эмоций человека и анализ частных показателей позволяет не просто выделить неконгруэнтного эксперта, но и указать на неестественность его происхождения (отличить просто неконгруэтного человека от дипфейка)", - говорит Анатолий Медведев, инженер Национального центра когнитивных разработок ИТМО.
Разрабатываемые российскими регуляторами технические средства предполагается использовать для выявления deepfake с учетом действующих положений нормативных правовых актов, в особенности статьи 15.3 Федерального закона от 27.07.2006 №149-ФЗ "Об информации, информационных технологиях и о защите информации". "В ней изложен перечень так называемой "фейковой", недостоверной информации и порядок ограничения доступа к ней. Соответственно, и механизмы реагирования могут применяться те же", - добавляет Коросташов.