Почему российский бизнес инвестирует в исследования и разработки в области генерации изображений с помощью нейросетей
Сбер и Яндекс практически одновременно анонсировали сервисы генерации изображений из текста - Kandinsky 2.1 и "Шедеврум". Но если для Сбера это стало развитием их работы с генеративными нейросетями, стартовавшей в 2021 году с сервиса ruDALL-E, то "Шедеврум" - бета-версия первого подобного сервиса от Яндекса.
"Мы пока в самом начале пути. В основе "Шедеврума" прототип нейросети, которой предстоит многому научиться. К моменту финального релиза она сможет генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и не только. Бета-тест приложения для пользователей - это новый опыт и немного хорошего настроения, для нас - возможность чуть лучше понять, в каком направлении развивать нейросеть дальше", - заявил руководитель управления машинного интеллекта и исследований Яндекса, Алексей Гусаков.
Сервис реализован в виде приложения "Шедеврум" на Android и iOS. Нейросеть понимает русский и английский языки. Сейчас в приложении реально лишь ознакомиться с результатами работы нейросети, отмечая понравившиеся изображения в ленте. Собственное описание для генерации изображения можно предложить в формате заявки и, если повезет, дождаться ее подтверждения.
Нейросеть Сбера Kandinsky 2.1 - более зрелый проект. Она способна создавать изображения по текстовому описанию, смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна. Нейросеть понимает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях. Модель полностью рабочая и доступна в разных интерфейсах: на промостранице, на устройствах семейства Sber, в мобильном приложении "Салют", на платформах ML Space, Fusion Brain и в Telegram-боте.
Первый заместитель председателя правления Сбербанка Александр Ведяхин считает, что Kandinsky 2.1 - это шаг к созданию AGI, сильного искусственного интеллекта.
Российские проекты не единственные среди весенних анонсов подобных нейросетевых сервисов. Недавно международный ИТ-гигант Microsoft интегрировал генератор изображений Bing Image Creator, созданный на основе нейросетевой модели DALL-E 2, в свой чат-бот и поисковик. Bing Image Creator, как и российские сервисы бесплатен, но из России доступен через VPN и понимает только английский язык.
Немногим ранее лидер в области ИИ-генерации изображений, компания Midjourney, объявила о запуске тестирования своей новейшей - пятой - версии нейросети.
Из четырех представленных проектов лишь Midjourney - платный. Причем, генеральный директор и основатель Midjourney Дэвид Хольц объявил об закрытии бесплатного доступа лишь 30 марта, сославшись на "чрезвычайный спрос и злоупотребления бесплатной демо-версией".
По мнению генерального директора компании Digital Consulting Solutions Александра Скоморохина, обучение таких нейросетей в зависимости от качества модели может стоить от 150 до 500 млн рублей, а в крупных корпорациях расходы на создание подобных решений превышают 1 млрд за каждую модель.
Несмотря на дороговизну технологии, взрывной интерес к нейросетям генерации изображений, вспыхнувший в 2022 году, не погас и в 2023, а бизнес продолжает дорогие и убыточные проекты.
"Крупнейшие компании проявляют интерес и инвестируют в исследования и разработки в области генерации изображений с использованием нейросетей по нескольким причинам: для них это своего рода спортивные достижения, которые важны для развития технологий, используемых внешне для рекламы и удовлетворения пользовательских запросов (как Midjourney), а внутри - в качестве инструментов для решения конкретных и достаточно сложных задач по автоматизации и созданию контента, обогащению данных и разработки новых продуктов и услуг, - говорит директор Центра по прикладному искусственному интеллекту Сколтеха Евгений Бурнаев. - Большие базовые модели типа Midjourney, генерирующие изображения из текста, дают возможность развивать технологии и для решения обратных задач - обработки и анализа изображений для поиска".
Бурнаев также отмечает, что Яндекс использует эти технологии в тех своих подразделениях, где производится обработка и повышение качества изображений. "Для поискового сервиса Яндекса важно понимать связь между текстом и изображением. В этих же целях - для поиска, а также для креативных приложений и дизайна - их использует и Microsoft", - считает эксперт.
По мнению научного сотрудника Института искусственного интеллекта AIRI Алексея Ковалева, развлекательный функционал генеративных нейросетей действительно сейчас привлекает много внимания, но в будущем у таких систем есть перспектива стать основой для мощных цифровых инструментов, как это когда-то случилось с "Фотошопом". "Процесс создания подобных инструментов привносит огромный вклад в развитие компьютерных наук: многие важные для научного сообщества публикации по ИИ были написаны учеными из технологических компаний", - отмечает Ковалев.
Рынок нейросетей для создания изображений очень быстро растет и продолжит свой рост в ближайшие годы. Согласно отчету MarketsandMarkets, в 2020 году он оценивался в 394,3 млн долларов, но уже к 2026 году вырастет до 4,1 млрд долларов со среднегодовым темпом роста (CAGR) 45,2%. Это свидетельствует о его гигантском потенциале, а Скоморохин из Digital Consulting Solutions уверен, что затраты компаний на развитие генеративных нейросетей - это не "сжигание денег", а инвестиции в перспективную технологию.