18.01.2023 20:28
Digital

Как устроены нейросети и для чего они нужны

Текст:  Полина Беспамятнова Владимир Тихонов
Российская газета - Федеральный выпуск: №11 (8956)
Говорят, скоро не будет ни кино, ни театра, ни книг, ни газет... один сплошной Midjourney. Пока продолжается тестирование бета версии этой нейросети, пользователи со всего мира не могут наиграться, создавая миллионы новых изображений ежедневно. Между тем все самые популярные нейросетевые продукты последнего года работают на основе одной и той же гигантской нейросети Stable Diffusion, которой находят все новые и новые применения.
Нейросетевые продукты находят все новые сферы для применения. / Midjourney v4
Читать на сайте RG.RU

Интересно, что сделать конкретный продукт на базе нейросети может даже небольшая команда. Так, над Midjourney работали всего около 10 человек.

"Главное, чего я хочу, - чтобы на ближайшие 10 лет у нас был дом, в котором мы могли бы экспериментировать с технологиями и создавать продукты, которые будут иметь значение не только для меня, но и для всего мира. Ну и получать удовольствие в процессе", - говорит Дэвид Хольц, основатель Midjourney.

Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта: умение нейросетей понимать человеческую речь и создавать образы на основе текстовой информации. Нейросеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на сотнях миллионов примеров. Результаты такого обучения позволяют решать различные задачи - генерацию картинок по текстовому описанию, генерацию текстовых описаний по картинкам, дорисовку частей изображения и так далее.

В основе большинства современных нейросетевых продуктов, таких как Midjourney, Lensa или, например, Riffusion, нейросеть Stable Diffusion - гигантский проект, обученный на миллиардах существующих изображений. Она открыта для всех и бесплатна. Нейросеть можно дообучить под себя. Загружая конкретные стили, можно обучить сеть подражать этому стилю. Так же и с объектами - если загрузить в нее 100 фотографий капусты и сказать, что это капуста, нейросеть получит объект "капуста". И если кто-то вспомнил антиспам-защиту, предлагающую выбрать фотографии, на которых есть, допустим, светофоры или автобусы, то вы правильно вспомнили. В этот момент вы обучаете чью-то нейросеть.

Аниме по The Last of Us показали с помощью нейросети

Ну а дальше в зависимости от задачи. При использовании Midjourney, чтобы создать изображение, вы вносите в чат с ботом Midjourney слова, описывающие картину, которую в итоге хочется получить. Система сгенерирует четыре изображения на выбор, а дальше наиболее подходящую картинку можно масштабировать, изменять и дорабатывать до идеала.

В случае с Lensa вместо уже упомянутой капусты вы загружаете свои фото. В результате создается условный объект "Вася", а затем на основании текстового описания, которое формируется алгоритмом в формате "Вася + портрет + задумчивый + очень красивый + смотрит вдаль + в стиле Рембрандта + 4к" и которое вы не видите, нейросеть берет портреты всех красивых задумчивых мужчин, которые смотрят вдаль, берет ваше лицо, берет картины Рембрандта и из этого всего комбинирует изображения.

Все немного забавнее в случае с Riffusion, создающей музыку. Эта нейросеть тоже работает с изображениями, но музыки. Речь о сонограммах, которые сохраняют звук в двумерном изображении. Нейросеть обучается на приятных слуху изображениях музыки, а затем производит свои собственные на основе ключевых слов и текстовых подсказок, описывающих тип музыки или звука, который пользователь хочет услышать. После создания сонограммы инструмент преобразовывает ее в звук.

В 2023 году нейросетевые продукты получат дальнейшее развитие. Перспективным направлением станет расширение области восприятия. Возможность распознавать лица, изображения, отпечатки, голоса и звуки. Еще одним трендом станет внедрение в языковые нейросети знаний об окружающем мире при помощи "Википедии" и подобных источников. Это даст возможность во время оформления ответа применять не только информацию из обучающей выборки, но и прямо с фактологического источника.

Технологии