Текстовый эмбеддинг с Уэнсдей

Делюсь легковесным инструментом на базе нейросети Stable Diffusion для тех, кто хочет попробовать что-то погенерить с восходящей звездой ДТФ

Основа запроса - painting of slim pale wdnsdadms, detailed face and eyes, 2 long braids, black boots,  wearing black dress, sitting on a pier. Модель - A3F222-07<br />
Основа запроса - painting of slim pale wdnsdadms, detailed face and eyes, 2 long braids, black boots, wearing black dress, sitting on a pier. Модель - A3F222-07

Вчера посмотрел первую серию сериала, остался очень доволен картинкой и актерской игрой главной героини (и анимацией Вещи, конечно же) ; решил попробовать реализовать самый простой вариант обучения нейросети конкретному персонажу - Textual Inversion.

Для нетерпеливых - забрать готовый текстовый эмбеддинг можно тут.

Кидаете его в папку embeddings в своей сборки Automatic1111 (или в аналогичную в вашей любимой сборке), в свой запрос добавляете wdnsdadms - готово!

Эмбеддинг совместим почти с любой моделью Stable Diffusion (да, с хентайными тоже), быстро учится и почти ничего не весит. Cходство с Ортегой не 100%, конечно. 2 косички и волосы на лбу, суровый взгляд == Уэнсдей, по мнению нейросети.

painting of (wdnsdadms:1.1) with 2 long braids as  batman, (batman's eyemask:1.2) on the face, black iris, black leather armor. Модель - Anything V3 <br />
painting of (wdnsdadms:1.1) with 2 long braids as batman, (batman's eyemask:1.2) on the face, black iris, black leather armor. Модель - Anything V3

Как делается Textual Inversion уже писал во второй части своих гайдов по Stable Diffusion, но сейчас появилась интересная опция Gradient Accumulation, неплохо ускоряющая обучение - (как я понял), требуемых шагов для хорошего результата нужно меньше за счет того, что поиск в модели лучшего варианта для эмбеддинга идет не после каждого изображения, а после обработки результатов нескольких изображений сразу.

На обучение эмбеддинга ушло 1500 шагов с настройками learning rate: 0.005:150, 0.0005:1000, 0.00005:1500 и примерно полтора часа на GTX1080.

Если у кого-то есть силы и желание сделать эмбеддинг лучше/обучить гиперсеть/сделать модель через Dreambooth - сделал датасет из 60 размеченных изображений из первой серии. Сам в обучении использовал только 7 из них, т.к комп еще и для работы нужен, а в бесплатных облачных инструментах гугла словил временный бан на использование GPU.

Еще немного рисунков с разными базовыми моделями и тем же эмбеддингом:

Если у вас будут получаться только портреты без какой-либо стилизации - сделайте вес токена поменьше, например, (wdnsdadms:0.8) заставит модель обращать внимание и на остальные детали вашего запроса. Или CFG выставляйте побольше, тоже помогает.

На сладкое, разбавить готичность (легкое-легкое NSFW):

Отдыхает с Вещью на море и страдает из-за цвета лодки. Модель - смесь Anything V3 и F222<br />
Отдыхает с Вещью на море и страдает из-за цвета лодки. Модель - смесь Anything V3 и F222

Надеюсь, что эмбеддинг поможет какому-то из местных пряморуких художников быстрее сделать свои шедевры, успеть на волны хайпа и собирать свои заслуженные лайки/донаты/подписчиков

2424
43 комментария

Чот угарнул, что у нее купальник из волос. Чзх она Байонетта???

9

Попробую обучить на датасете.

Предыдущие попытки сделать свой эмбеддинг не сказать что были удачными - я прогнал выборку из десятка картинок через anything v3 через 100к шагов, на выходе получив белиберду. Думал что это из за видюхи(3070ti), а тут люди на 1080 учат, и ничего... Кажется нужно попробовать ещё раз.

2

Я хз что не так с моими эмбдингами. Вот мой промежуточный результат на 1500 шагов, мальца как то не то что у ОПа, да?

Используй гиперсетку или дримботх. От 5К шагов тестируй результат. Там по умолчанию модель каждые 500 шагов сохраняется

забрал открывающую картинку на рабочий стол(ы)

1

За такое подарок - радостная Уэнсдей (по мнению сети)

1

Есть же раздел специальный для нейронок

1