Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

В этой небольшой заметке мы расскажем вам, как сделать изображение из простого скетча с помощью искусственного интеллекта. Мы будем использовать нейросеть Stable Diffusion 1.5 и Stable Diffusion XL, поскольку они позволяют максимально контролировать процесс генерации, но мы также покажем наши результаты генераций по скетчу в MidJourney и поделимся, как мы попробовали повторить это в DALL-E 3.

Мы с вами попробуем создать изображение космоса с планетой красного цвета с кольцами и желтой звездой. Поехали!)

Шаг 1. Рисуем скетч

В Phygital+ интерфейсе вы можете нарисовать скетч, не выходя из браузера. Для этого мы должны нажать на иконку с кисточкой справа сверху и перейти в режим Sketching.

Note: вы можете нарисовать скетч и в любом редакторе, но для удобства рекомендуем воспользоваться встроенной функцией в Phygital+.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Рисуем красную планету и желтую звезду. В нашем примере мы хотим сделать изображение квадратным, поэтому не меняем соотношение сторон, но при необходимости вы можете поменять его на 16:9 или 9:16. Как только закончили, нажимаем на кнопку Sketch, чтобы добавить наш рисунок на рабочее пространство.

Шаг 2. Делаем промежуточный концепт изображения с помощью Stable Diffusion 1.5

Создаем ноду Stable Diffusion 1.5, подключаем наш скетч в Start Image. Пишем промпт с следующей структурой: <что хотим на изображении>, <ключевые слова>.

Мы хотим получить концепт космоса с планетой и желтой звездой, пишем их в начало промпта: red planet with rings, yellow sun.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Дальше нам нужно добавить ключевые слова, некоторые мы можем написать сразу сами – так как мы хотим получить около фантастический концепт, добавляем stunning fantasy galaxy art, digital artwork. И добавим ещё intricate details, milky way для более точной композиции.

Дальше для лучшей работы Stable Diffusion лучше добавить ещё слов, которые направят генерацию в нужное русло (по простым промптам SD 1.5 часто выдает крипоту). Если есть трудности с подбором ключевых слов, то можно обратиться к AI assistant в чат-окне. Напишем, что у нас на изображении. В нашем случае мы уже написали основу промпта и хотим больше детализации звездного неба, поэтому пишем galaxy stars, space и получаем готовый конец промпта).

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Копируем понравившиеся слова, и мы получаем такой промпт: red planet with rings, yellow sun, stunning fantasy galaxy art, digital artwork, intricate details, milky way, awe-inspiring, nebula, astro art, deep space, long exposure, stars, space explorations, high detail, glowing, radiant, magical, holographic colors, by Roger Dean, Steve Gildea, Chris Foss, and Vincent Di Fate, trending on Artstation HQ

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Теперь нам важно выставить параметр Start Image Skip на 0.75.

Start image skip (Denoising strength) отвечает за то, насколько близко к исходному изображению будет ваша генерация. Чем меньше число, тем ближе к референсу получится сгенерированное изображение.

Если поставить слишком большое значение, то композиция может теряться.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Наша цель на этом шаге – преобразовать скетч в недетализированный концепт. Поэтому рекомендуем поставить значение 0.75, на котором изображение не будет выглядеть как скетч и сохранит нужную композицию.

На этом этапе вы можете также выбрать любой стиль Styles (Styles – кастомные чекпоинты Stable Diffusion, которые были дообучены для получения лучших результатов). Мы используем модель Reliberate, но вы можете попробовать любую из доступных 90 моделей, например, DreamShaper, Absolute Reality, RunDiffusion или Noosphere.

Нажимаем Generate, это будет наша первая итерация, поэтому пока мы не обращаем внимание на отсутствие детализации и артовости.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Шаг 3. Увеличиваем разрешение

Для этого мы используем ноду Upscale, к которой подсоединяем понравившееся изображение и запускаем. Тем временем копируем изначальную ноду Stable Diffusion 1.5, в ней меняем Start image skip на 0,2, ставим Number of Images 1, и подсоединяем результат из ноды Upscale.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Шаг 4. Детализируем наш концепт

Теперь мы можем создать более детализированную итерацию с помощью ноды Stable Diffusion XL img2img. Подсоединяем наше изображение из Stable Diffusion 1.5, копируем промпт, ставим Start image skip 0.7. В промпте можем поправить, если что-то не нравится – в нашем случае мы добавили чуть больше звезд после yellow sun:

red planet with rings and yellow sun, many stars, multiple colorful stars, stunning fantasy galaxy art, digital artwork, intricate details, milky way, awe-inspiring, nebula, astro art, deep space, long exposure, stars, space explorations, high detail, glowing, radiant, magical, holographic colors, by Roger Dean, Steve Gildea, Chris Foss, and Vincent Di Fate, trending on Artstation HQ

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Готово, мы получили концепт из скетча!

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Шаг 5. Создаем вариации

При необходимости можно также получить вариации этого изображения, создав еще одну ноду SD XL img2img, скопировав промпт и выставив Start image skip на 0.4.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч
Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Повторить этот пайплайн и более детально рассмотреть настройки можно в нашем продукте в темплейте Image from Sketch.

Можно ли повторить этот пайплайн с такими нейронками, как MidJourney или DALL-E 3?

На данный момент, сделать это сложно из-за специфики настроек этих инструментов.

MidJourney. Позволяет использовать стартовое изображение как референс и задавать его вес с помощью параметра -- iw. Можно поставить число от 0 до 2 (2 – самое большое влияние изображения). Мы взяли наш исходный скетч из Шага 1, загрузили его на Imgur и вставили ссылку на изображение в начало промпта. Но используя один и тот же промпт с настройками и меняя только --iw, мы не смогли добиться той же самой композиции, как и на исходном скетче.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Но как же MidJourney хорош в работе со светом!

Примеры генераций MidJourney
Примеры генераций MidJourney

DALL-E 3. Как таковой функции подачи исходного изображения в DALL-E 3 нет, но мы попробовали обойти это ограничение, попросив GPT-4 составить промпт по нашему скетчу. Вот какие результаты получились у нас. К сожалению, композиция скетча получается отзеркаленной, несмотря на наличие ‘in the upper right corner’ в промпте.

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

На скриншоте в последней ноде мы попробовали немного изменить промпт и структуру, но нужного результата, к сожалению, не добились. Но получилось красиво :)

Примеры генераций DALL-E 3
Примеры генераций DALL-E 3

Так что, несмотря на красивые и качественные изображения от DALL-E 3 и MidJourney, лучше всего с генерацией по скетчу пока справляется Stable Diffusion. В SD с помощью параметра Image Skip (Denoising strength) можно играться и не только со скетчем, но и подавая на вход обычное изображение как референс для генерации. Результаты 3 нейронок:

Я попросил MidJourney, DALL-E 3 и Stable Diffusion дорисовать мой скетч

Еще одна небольшая ремарка: вы можете поэкспериментировать и сразу из скетча добавлять изображение в Stable Diffusion XL (img2img), минуя шаг с Stable Diffusion 1.5, но результаты могут быть хуже. В целом, двигаться итеративно – это одна из наиболее рабочих стратегий в работе с нейронками, а гибкий и контролируемый процесс генерации у Stable Diffusion позволяет достигать наилучших результатов.

Пишите в комментариях, если вы пробовали выполнять похожую задачу с помощью ИИ, какие инструменты использовали и какой получился результат)

В Phygital+ представлены все топовые нейросети от MidJourney, DALL-E 3, Stable Diffusion до GPT-4, ControlNet и DreamBooth, а наш нодовый интерфейс позволяет еще больше управлять процессом создания контента и объединять все ИИ инструменты в один понятный пайплайн.

Очень скоро мы выпустим статью-подборку промптов и сравнение этих инструментов, подписывайтесь, чтобы не пропустить обновления!

1010
3 комментария

Комментарий недоступен

1
Ответить

Дале как будто игнорирует конкретные элементы , а просто тематическую картинку бросил!

1
Ответить

Я бы сказал что страбл выполнил все по ТЗ! Может не очень красиво, но четко по задумке автора!)

1
Ответить