Содержание
- Как нейросети создают картинки
- Лучшие бесплатные нейросети для генерации изображений по описанию и фото
- Преимущества нейросетей для рисования
- Недостатки нейросетей, генерирующих картинки
Как нейросети генерируют изображения
Процесс генерации изображений нейросетью происходит с помощью генеративно-состязательных сетей (GAN). В их основе лежат:
- генератор, который генерирует новые данные,
- дискриминатор, который измеряет качество полученной картинки.
Далее наступает очередь модели CLIP, которая находит в тексте пользователя максимально точное описание для изображения, после чего специальный подмодуль оценивает сходство между полученным изображением и его изначальным описанием.
При этом для того, чтобы создать картинку с помощью нейросети, системе приходится анализировать миллионы изображений, загруженных в ее базу. Как правило, они берутся из интернета и сопровождаются соответствующими подписями. Нейросеть объединяет знания обо всех объектах и в дальнейшем находит нужные фрагменты по ключевым словам в запросе. Например, изучив тысячи фотографий с лемурами, в дальнейшем она сможет создать точное изображение животного, уже зная, в какой позе и где он чаще всего сидит.
Лучшие бесплатные нейросети для генерации изображений по описанию и фото
Здесь представлены российские нейросети, позволяющие генерировать изображения, которые на данный момент являются одними из самых удобных и точных.
Fusion Brain
Fusion Brain - это нейросеть, созданная Sber AI, на базе Kandinsky 2.2, однако имеющая в отличие от "материнской" версии дополнительные инструменты редактирования: например, возможность расширения сгенерированного изображения по вертикали или горизонтали и добавления фона.
Для того, чтобы нейросеть смогла создать картинку, нужно перейти на веб-сайт fusionbrain.ai и нажать на вкладку "Открыть редактор" в правом углу экрана, после чего появится интерфейс, в котором необходимо написать текстовое описание будущего изображения.
Далее Fusion Brain предложит несколько инструментов для редактирования: различные стили, уменьшение или увеличение картинки, ластик, который позволяет убирать непонравившиеся объекты. Что касается последнего, то после того, как с помощью него будет стерта часть изображения, необходимо вновь ввести текстовый запрос для этой пустой части. В случае, если получившаяся картинка не устраивает, следует еще раз нажать "Создать". Загрузить работу можно с помощью соответствующей кнопки, которая находится в верхней левой части панели.
Плюсы:
- Понимает запросы на 101 языке, в том числе русском;
- Может генерировать изображения не только по текстовому запросу, но и по выбранному изображению;
- Есть 21 стиль на выбор: например, ренессанс и аниме;
- Возможность изменить существующее изображение, а также выбрать нужный формат и разрешение;
- Высокое качество картинки;
- Интуитивно понятный интерфейс;
- Бесплатный доступ.
Минусы:
- Ограниченное количество инструментов;
- Медленная работа с загруженными фотографиями.
"Шедеврум"
Это проект компании "Яндекс", который был запущен в 2023 году.
Для работы с системой необходимо скачать приложение, доступное для iOS и Android. Зайдя в программу, откроется главная страница, в правом верхнем углу которой будет значок "плюс", нажав на который программа предложит создать либо текст, либо изображение. Выбрав второе, откроется поле, в которое нужно ввести текст. Генерация картинки, как правило, занимает около минуты, по истечении которой "Шедеврум" предложит на выбор четыре картинки. Затем одну из них можно будет опубликовать в своем профиле, после чего скачать на устройство.
Плюсы:
- Нейросеть рисует по словам на русском языке;
- Подражает известным художникам;
- Работает в разных художественных стилях;
- Создает сразу четыре картинки на выбор;
- Возможность делать GIF;
- Количество попыток генерации изображений не ограничено;
- Возможность публиковать свои работы и знакомиться с картинками других пользователей;
- Бесплатный доступ.
Минусы:
- Доступно только в мобильной версии на устройствах на базе iOS и Android;
- Нельзя сразу скачать все четыре полученные изображения.
TurboText_Bot
Это чат-бот, доступный пользователям Telegram, который может не только генерировать изображения, но и создавать различные тексты - новости, описания к товарам, рерайты и т.п.
Найти чат-бот можно, введя в поисковой строке в Telegram "TurboText. Генератор контента с ИИ". Открыв страницу, необходимо нажать на "start" и выбрать вкладку "создать изображение". Затем система попросит ввести текст для дальнейшей генерации картинки, которую она будет создавать примерно одну минуту, и предоставит готовый вариант.
Плюсы:
Указывает примерное время ожидания - около одной минуты - и место пользователя в очереди на генерацию;
- Возможность обрабатывать фото;
- Пользователь может дать описание на русском языке;
- Наличие сервиса "Всезнайка изображений", который может решать уравнения, проверять схемы, искать местоположения снимков и описывать все детали на них;
- За подписку на канал чат-бот дарит от трех до 100 бесплатных сеансов;
- Существует аналогичный чат-бот, но на английском языке;
- Бесплатный доступ.
Минусы:
- Доступен только в Telegram;
- Неширокий функционал;
- Число попыток ограничено - всего десять.
Dream
Dream разработала канадская студия Wombo, которая ранее создала приложение, "заставлявшее" знаменитостей на их фотографиях моргать глазами и шевелить губами под разные песни.
Генерация картинок в Dream происходит следующим образом: пользователь, заходя на сайт dream.ai, вводит в специальную строку, внизу которой также есть подсказки описаний, свой запрос и при необходимости выбирает один из художественных стилей, представленных там же. Далее система в течение примерно 5-10 секунд создает картинку, которую пользователь может приблизить, нажав на соответствующий значок на самом изображение, и, если оно ему понравилось, скачать.
Плюсы:
- Есть веб-версия и приложение для пользователей Android;
- Предоставляет сразу девять картинок на выбор;
- Высокая детализация и реалистичность;
- Много стилей;
- Есть подсказки для ввода запроса;
- Пользователь может дать описание на русском языке;
- Подходит для генерации уникальных обоев на смартфон;
- Не требует регистрации;
- Бесплатный доступ.
Минусы:
- В интерфейсе сервиса представлено много лишней информации;
- Обычный пользователь может получить только одно изображение, в то время как для подписчиков премиум-версии доступны сразу четыре;
- Ввод запроса ограничен 350 символами;
- Не умеет понимать сложные описания с подробными уточнениями.
ruDALL-E
ruDALL-E является первой нейросетью, научившейся генерировать картинки по описанию на русском языке. Эта система была создана командами "Сбера", Sber AI, SberCloud и SberDevices после того, как в январе 2021 года OpenAI представила нейросеть DALL-E. Специалисты воспроизвели ее код и запустили обучение модели на платформе ML Space.
Использование ruDALL-E максимально простое: для генерации картинки достаточно только ввести нужный запрос в соответствующей строке, расположенной внизу экрана, и выбрать ее размер - 256x256, 512x512 или 1 024x1 024. После этого - нажать на кнопку "Отправить" и дождаться, когда нейросеть создаст картинку. При этом специальной функции скачивания здесь не предусмотрено, а потому пользователю придется самостоятельно нажать на полученное изображение и выбрать "Сохранить как".
Плюсы:
- Быстрая генерация;
- Может анализировать длинные и расширенные запросы;
- Наиболее удачное направление, в котором работает, - пейзажи;
- Быстрая обратная связь в службе поддержки;
- Минималистический интерфейс;
- Пользователь может дать описание на русском языке;
- Бесплатный доступ.
Минусы:
- Низкое качество изображений;
- Необходимость регистрации.
DreamStudio.Ai
Это официальный портал, который создала компания-разработчик нейросети Stable Diffusion. Однако в отличие от последней систему не нужно устанавливать на ПК, а можно использовать на самом сайте в режиме онлайн.
Веб-сайт DreamStudio.Ai создан полностью на английском языке. Для начала работы с программой нужно нажать на "Get started" в правом верхнем углу экрана. После этого во вкладке "Promt" указать описание картинки, в "Style" выбрать один из предложенных стилей, в "Negative promt" перечислить объекты, которые не хотелось бы видеть, а в "Settings" определить размер картинки. После нажатия на кнопку "Dream" DreamStudio.Ai начнет генерировать изображение. В результате пользователю будет предложено четыре работы, каждую из которых можно скачать.
Плюсы:
- Предлагает варианты картинки сразу в нескольких стилях: можно выбрать от одного до 10;
- Интуитивно понятный интерфейс;
- Есть множество инструментов для редактирования полученного изображения;
- Нейросеть понимает расширенные описания, в том числе упоминания размеров объектов;
- Предлагает подсказки ввода запроса.
Минусы:
- Бесплатно доступна только пробная версия;
- Нет возможности составить запрос на русском языке;
- Требуется регистрация.
Mage Space
Mage Space представляет собой платформу для генерации изображений из текста на основе открытого исходного кода встроенной модели Stable Diffusion.
Работать с этой нейросетью можно только на английском языке. Так, зайдя на страницу, пользователь сразу увидит строку, в который нужно вводить описание. Также здесь есть несколько инструментов для более точной генерации картинки - для этого нужно, перейдя во вкладку "Select Models", выбрать стиль картинки, ее размер и сделать настройки более тонкими, что улучшит качество изображения.
Плюсы:
- Простой функционал;
- У пользователя есть возможность показать картинку и запросить генерацию изображения в похожем стиле;
- Может создавать арты и обложки для публикаций, что пригодится, например, SMM-специалистам;
- В платном тарифе можно запускать одновременно несколько сеансов, отключать рекламу, пользоваться набором более тонких инструментов и создавать GIF;
- Есть бесплатная версия.
Минусы:
- В бесплатном тарифе ограниченный функционал;
- Нет возможности составить запрос на русском языке;
- Не понимает русского языка;
Преимущества нейросетей, генерирующих изображения
Страх представителей творческих специальностей быть замененными ИИ в отдельных случаях оправдан, однако многие видят в современных технологиях возможность развития медиаиндустрии. Например, в июне прошлого года на обложке журнала Cosmopolitan появилась женщина-астронавт, которую сгенерировала нейросеть Dall-e 2. Тем же летом американский кинематографист Стив Коулсон представил хоррор-комикс "Summer Island", в котором самих героей, их костюмы и локации нарисовала нейросеть Midjourney. При этом на данном этапе нейросети пока не имеют профессиональных черт, присущих тем же дизайнерам или художникам, а потому могут быть лишь их полезным инструментом: в частности, создавать несложные логотипы, которые человек потом сможет сам отредактировать.
Помимо этого, нейросеть для рисования способна необычным образом компоновать объекты и создавать ранее неизвестные образы, что поможет авторам получить идеи для своих проектов.
Недостатки нейросетей, генерирующих изображения
Исходя из отзывов пользователей и результатов тестирований таких нейросетей, они имеют больше недостатков, чем преимуществ. Приведем некоторые из них:
- Возможность распознавать только те объекты и закономерности, которые есть в базах данных систем;
- Нереалистичность отдельных объектов, что снижает достоверность полученного результата;
- Появление в сети множества дипфейков;
- Обучение нейросетей зачастую происходит на работах настоящих художников, из-за чего, как утверждают эксперты, обесценивается труд последних;
- Из предыдущего пункта вытекает проблема этической стороны;
- Нейросеть может создать оскорбительное изображение.