Для создания модели говорящей головы нейронную сеть сначала пришлось учить с помощью череды кадров с изображением различных людей, а затем алгоритм можно было использовать для оживления конкретного портрета. Для обучения нейросети в качестве входных данных использовались интервью со знаменитостями.
Созданная в результате обучения маска накладывается на говорящую голову и создает границы лица и базовую мимику. Связь маски с исходным видеорядом сохраняется в виде вектора, благодаря чему маска может быть перенесена на отдельные изображения лиц. Эта система позволила российским разработчикам переносить информацию между двумя объектами, используя лишь один или два кадра.
Таким образом, ученым удалось "оживить" изображения Мэрилин Монро, Сальвадора Дали, Федора Достоевского и других выдающихся людей. Мона Лиза отныне уже не выглядит столь загадочно, а скорее напоминает непоседливую молодую девушку, которая вертится из стороны в сторону.
Ранее многие ученые из разных стран пытались создать нечто подобное. Однако сделать то же самое на основе 16, 8 или даже одного кадра до этого момента никому не удавалось. Воссоздать реалистичные образы крайне трудно по двум причинам. Во-первых, человеческая голова обладает рядом сложных параметров и пропорций, из-за чего трудности возникают уже в процессе обычного моделирования лица. Например, сложно воссоздать полость рта. Еще сложнее сопоставить эмоции героя с тем, что он говорит.
Вторым препятствием является восприятие зрителя. Если ему покажется, что робот чересчур нереалистичен, дальше смотреть результаты эксперимента уже не захочется. Человеку будет буквально противен этот экземпляр, поэтому ошибки быть не должно.
До этого ученые научились создавать фотографии несуществующих людей, изображения которых отличаются высокой реалистичностью. Нейросеть BigGAN подразделения компании Google делает картинку настолько правдоподобной, что хочется отыскать изображенного человека и познакомиться с ним.