Генерация "стабильных" телочек

Начнем издалека. Решил побаловаться со Stable Diffusion. Машина — MacBook Air (M1). Скорость генерации говно, но для побаловаться сойдет. Установка оказалась простой: установка HomeBrew, установка Git, стягиваем с репозитория на Github саму диффузию, дальше можно начинать работать.

К слову, это не гайд — скорее рассказ чайника с примерами — так что пошагового руководства не будет, но если нужны какие-то детали, то опытом установки, разумеется, поделюсь.

Конкретно эту одну генерацию я апскейлил через Topaz Photo AI. Никаких иных "улучшалок" ни тут, ни в остальных примерах нет — честные результаты "as is". Единственное — вынужденная цензура.

Не будет лишним себе скачать натренированные модели, чтобы не трахаться с обучением самостоятельно (я этим, признаюсь, еще даже не начинал заниматься). Скачивал тут. Скачанные файлы кидать в /stable-diffusion-webui/models/Stable-diffusion

Как не имеющий опыта с диффузией мимокрокодил, порядком напарился со строкой, из которой мы сочиняем картинку. Вроде бы как по обывательской логике чем больше условий, тем точнее результат. Хер там. Чем больше вводных данных, тем сильнее путается нейронка.
Не забываем про negative prompt — зачастую важнее сказать, чего в результате не должно быть, чем то, что должно.
Не стоит сильно опираться на примеры генерируемых моделью картинок — у меня традиционно "реалистичные" модели порой такую хурму выдавали, что глаза на лоб лезут (у телочек на картинках в том числе).
Повторить картинку на моем сетапе по сиду с примеров не получается — не совпадают сиды на процессоре.
Апскейл силами самой нейронки дает очень неплохие результаты, но время генерации увеличивается на порядок (прямо сейчас у меня уже час апскейлится одна несчастная картинка)

Детальных инпутов, увы, не сохранил, ибо регулярно игрался как с самой строкой, так и со всяческими ползунками. Используемые модели:

— ChilloutMix

— Colorful

— Deliberate

— Faetastic

Ок, поїхали ) Разумеется, с NSFW — потому как а почему бы и да?

Можно смело сказать, что получается неплохо. Я внаглую тырил некоторые промпты с примеров, чтобы попробовать воссоздать что-то похожее. Получалось... скажем так, по-разному. Где-то похоже, где-то прям вообще не то. Ниже более-менее удачные примеры тяночных лиц.

Дальше на свой страх и риск.

Местами проскальзывают лишние и\или неестественные пальцы.

В целом генерировать изображения просто: достаточно задать количество этапов (sampling steps), алгоритм генерации (sampling method) и, разумеется, модель, наученную некоторым объемом изображений. Ну, и, собственно, что именно хочется увидеть.

Частенько выходит так, что картинка на выходе грешит всякими лишними руками\ногами, невзирая на всяческие "не надо так!":

Если в целом результат считаешь годным — фиксируй сид. Дальше по методологии многоуважаемого @Neural Academy либо добавляешь бессмысленную ерунду (мне сильно не помогло), либо меняешь sampling method. В моем случае симпатичного мутанта выше удалось перерисовать вот так, сменив DPM++ 2M Karras на DDIM, не меняя при этом ни единого символа в промпте или ни единого значения в иных параметрах:

И никаких тебе лишних ног. Но результат не будет идентичным, просто похожим — это стоит учитывать.

Короче, генерировать условно реалистичных тяночек нейронка точно умеет. В отличии от MidJourney, не ограничена NSFW-фильтрами и стоп-словами. Но лица у MidJourney мне лично нравятся больше, хотя их искусственное происхождение едва ли не на лбу написано.

Небольшая подборка лиц от MidJourney бонусом: