Текстовый эмбеддинг с Уэнсдей

Делюсь легковесным инструментом на базе нейросети Stable Diffusion для тех, кто хочет попробовать что-то погенерить с восходящей звездой ДТФ

Основа запроса - painting of slim pale wdnsdadms, detailed face and eyes, 2 long braids, black boots,  wearing black dress, sitting on a pier. Модель - A3F222-07<br />
Основа запроса - painting of slim pale wdnsdadms, detailed face and eyes, 2 long braids, black boots, wearing black dress, sitting on a pier. Модель - A3F222-07

Вчера посмотрел первую серию сериала, остался очень доволен картинкой и актерской игрой главной героини (и анимацией Вещи, конечно же) ; решил попробовать реализовать самый простой вариант обучения нейросети конкретному персонажу - Textual Inversion.

Для нетерпеливых - забрать готовый текстовый эмбеддинг можно тут.

Кидаете его в папку embeddings в своей сборки Automatic1111 (или в аналогичную в вашей любимой сборке), в свой запрос добавляете wdnsdadms - готово!

Эмбеддинг совместим почти с любой моделью Stable Diffusion (да, с хентайными тоже), быстро учится и почти ничего не весит. Cходство с Ортегой не 100%, конечно. 2 косички и волосы на лбу, суровый взгляд == Уэнсдей, по мнению нейросети.

painting of (wdnsdadms:1.1) with 2 long braids as  batman, (batman's eyemask:1.2) on the face, black iris, black leather armor. Модель - Anything V3 <br />
painting of (wdnsdadms:1.1) with 2 long braids as batman, (batman's eyemask:1.2) on the face, black iris, black leather armor. Модель - Anything V3

Как делается Textual Inversion уже писал во второй части своих гайдов по Stable Diffusion, но сейчас появилась интересная опция Gradient Accumulation, неплохо ускоряющая обучение - (как я понял), требуемых шагов для хорошего результата нужно меньше за счет того, что поиск в модели лучшего варианта для эмбеддинга идет не после каждого изображения, а после обработки результатов нескольких изображений сразу.

На обучение эмбеддинга ушло 1500 шагов с настройками learning rate: 0.005:150, 0.0005:1000, 0.00005:1500 и примерно полтора часа на GTX1080.

Если у кого-то есть силы и желание сделать эмбеддинг лучше/обучить гиперсеть/сделать модель через Dreambooth - сделал датасет из 60 размеченных изображений из первой серии. Сам в обучении использовал только 7 из них, т.к комп еще и для работы нужен, а в бесплатных облачных инструментах гугла словил временный бан на использование GPU.

Еще немного рисунков с разными базовыми моделями и тем же эмбеддингом:

Если у вас будут получаться только портреты без какой-либо стилизации - сделайте вес токена поменьше, например, (wdnsdadms:0.8) заставит модель обращать внимание и на остальные детали вашего запроса. Или CFG выставляйте побольше, тоже помогает.

На сладкое, разбавить готичность (легкое-легкое NSFW):

Отдыхает с Вещью на море и страдает из-за цвета лодки. Модель - смесь Anything V3 и F222<br />
Отдыхает с Вещью на море и страдает из-за цвета лодки. Модель - смесь Anything V3 и F222

Надеюсь, что эмбеддинг поможет какому-то из местных пряморуких художников быстрее сделать свои шедевры, успеть на волны хайпа и собирать свои заслуженные лайки/донаты/подписчиков

24
43 комментария