Она создает изображения и анимацию в ответ на текстовые запросы пользователей. Нейросетка умеет распознавать российский культурный контекст, включая известные места, города, исторических личностей, а также популярные мультфильмы и сказки про Чебурашку, богатырей, Бабу-Ягу и т.д. Нейросеть уже успешно интегрирована в приложение "Шедеврум". Кроме того, она в скором времени появится в "Клавиатуре" и других сервисах "Яндекса".
YandexART использует метод каскадной диффузии для создания изображений и анимации, т.е. сперва программа генерирует изображения и кадры, соответствующие запросу пользователя, а затем постепенно увеличивает их разрешение, увеличивая детализацию. В сравнении с предыдущими версиями диффузионных моделей, которые использовались в "Шедевруме", YandexART, как заверяет российский поисковик, создает более реалистичную и детализированную графику.
Сравнение YandexART с предыдущей модельюДля повышения качества работы нейросети, разработчики увеличили размер обучающего набора данных в 1,5 раза, теперь он составляет 330 миллионов изображений с текстовыми описаниями. Эти изображения отбираются с использованием трех режимов фильтрации, а для обучения YandexART используются наиболее эстетичные снимки. Новый алгоритм распознавания текстов помогает нейросети лучше понимать предпочтения пользователей – так она лучше работает с особенностями лиц, глаз и рук для создания фотореалистичных портретов.
Для улучшения генерации изображений применяется дообучение с подкреплением. Сотрудники компании оценивают сотни или тысячи изображений, созданных с помощью YandexART, чтобы лучше понять, какие изображения считать удачными, а какие нет. Это позволяет нейросети улучшить способность создавать изображения животных, персонажей, объектов и событий.
YandexART уже успешно применяется в приложении "Шедеврум", где пользователи могут создавать изображения и видео. С момента запуска приложения было создано более 100 миллионов генераций. В ближайшем будущем, YandexART также будет доступна в "Яндекс Клавиатуре", позволяя пользователям создавать изображения на основе текстовых описаний и использовать их в качестве фонов.