Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Приспичило вам вкатиться в нейронки... Хочется сходу генерировать шедевры, но нет понятия, какие параметры за что отвечают? И наверное вики читать не хочется, ведь она на английском, да и примерами не особо блещет?

Ну ничего, я пришёл вам написать о них, и даже примеры покажу, и расскажу про некоторые штуки, о которых мало где напишут.

Только это всё-равно не позволит вам генерировать что-то очень годное, ведь это надо тренировать своё, промпт-крафтить и инпеинтить, а не радоваться хорошему подбору настроек на стандартных моделях.

Сетап

Как обычно,
web ui - AUTOMATIC1111
Модель - личный небольшой файн-тюн Anything3
VAE - Anything3
Гиперсети - изменения будут указаны по ходу статьи, по умолчанию - не используется

Предисловие

Основные параметры довольно просты, поэтому я так же пройдусь по некоторым расширениям, которые сильно влияют на генерацию, но так как они нестандартны, удобного для просмотра x/y плота не будет в связи с отсутствием параметров таковых, а так же невозможностью использования двух скриптов одновременно без танцев с бубнами.

Дополнительные материалы для настоящих bri'ish менов в конце, очень полезные.

Так же пару артиков, показывающих неизменённые генерации продвинутого сетапа для референса.

Собственно, глоссарий(?)

Первым параметром у нас выступает количество шагов, но рассматривать его в отдельности от семплеров будет контр-продуктивно, поэтому...
Шаги и Семплеры

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Что такое семплеры? Условно говоря, это метод, который вы выбираете для денойзинга шума, что бы получить абсолютно новую картинку. На данный момент в AUTOMATIC1111 поддерживаются 19 различных семплеров, но их можно разбить на 2 основных категории:
Анцестральные и не-анцестральные
Анцестральные семплеры обладают одним кардинальным отличием от не-анцестральных, или не-наследственных семплеров - дополнительным шумом, который они добавляют к картинке каждое некоторое количество шагов, что не позволяет данным методам когда-либо сойтись в одной финальной картинке. Это генерация на семплере Euler a. И да, данные семплеры вы можете выделить с помощью приставки "a" в названии, что значит "ancestral", или на русском - наследственный/наследующий. То есть сам механизм заключается в том, что данные семплеры меняют картинку постоянно, но наследуя детали предыдущей.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Как вы можете видеть, картинка меняется даже на 200 шагах, и даже на 2000, картинка будет отличаться от картинки с другим количеством шагов. Это НЕ значит, что чем больше - тем лучше. Вот например генерация той же картинки, сид 1, но на 2000 шагах.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Пропало небо например, и сменилось простым градиентом.

Обычно выше 30 шагов не имеет большого смысла, так как качество остаётся +- таким же. С не-наследственными семплерами же картина противоположна, они сходятся в один арт, не смотря на то, сколько шагов вы им зададите, будут лишь минимальные отличия, но не в самой композиции. Вот например мой любимый семплер - DPM++ 2M Karras.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Можно видеть, что сама композиция не меняется после уже 10 шагов, только немного дорабатывается, но не меняется в зависимости от шагов.
Данные семплеры - сходятся, у них есть финальная точка, к которой они приходят.

Это и есть главная зависимость семплеров и шагов, в остальном же каждый семплер ведёт себя немного по разному, но их крайне трудно разделить по каким-либо объектам, которые они рисуют лучше/хуже, это субъективный параметр, в котором у меня нет предпочтений. Скажу лишь, что общее качество картинки больше всего мне нравится у DPM++ 2M Karras, так же он очень быстрый, и предоставляет хорошие результаты уже на ~8-10 шагах, что позволяет быстро проходится по крупному количеству сидов, но на практике я таким не занимаюсь, ибо каждая вторая картинка очень хорошая.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

В данном плоте результаты всех текущих семплеров на сиде 1 при 10 шагах. Шаги НЕ влияют на результаты DPM Adaptive, так как он сам выставляет нужное количество шагов.
Вы может заметить, что dpm2 a, dpm fast, dpm 2a karras и plms сильно артефачат, но это не баг(это фича). Они просто медленно сходятся в результат. Не смотря на то, что dpm fast должен быть быстрым, на самом деле он довольно медленный.

А что по другим приставкам?
Из них только одна имеет важное значение, Karras, остальные же являются лишь названиями модификаций существующих семплеров.
Если кратко, то это немного изменённый алгоритм, который в среднем должен выдавать более хороший результат, в чём я неоднократно убеждался путём тестов одного и того же семплера с Karras и без.

P.S. НЕ путём проверки условного DPM++ 2S a и DPM++ 2S a Karras, а через расширение, которое позволяет добавлять различные модификации поверх одного и того же семплера.

Существуют так же Variance Preserving и Exponential вариации, но их вы не сможете получить без расширения, тема эта не сильно исследованная, но базовые примеры я вам показать смогу.

Так же можно использовать поверх уже модифицированных семплеров, что бы менять их параметры.

Так же можно добавить наследуемость не-наследственным семплерам с помощью нового расширения, Sonar, причём настройки достаточно комплексные, и сильно влияют на генерацию, в положительном или отрицательном ключе, причём зависеть это будет от многих факторов, включая рандом, если выбран таковой.

DPM++ 2M Karras, 100 шагов

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

DPM++ 2M Karras, 100 шагов + преднастроенный мною Sonar.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

То же самое, ничего не изменено, для показа роли рандома.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы
Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы
Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Общая композиция меняется не сильно, но отдельные детали разные. Но можно рандом не использовать, просто я нахожу его полезным.

Данное расширение не просто позволяет добавить шума в изображение, но позволяет использовать его в зависимости от настроек. Сильно в детали я вдаться не могу, но правильные настройки в данном расширении очень сильно влияют на семплеры в положительную сторону и уменьшают ошибки генерации, особенно при большом(100 и выше) количестве шагов, что сделать последующий инпеинтинг легче, или вовсе не нужным. Так же картинки могут получить хорошее количество деталей.

Но так как Sonar - расширение, то далее разбирать его смысла нет, и используется он мной лишь для более обширного показа различных механизмов семплеров.

Думаю на этом с семплерами на текущий день можно закончить.

Не особо глубокие базовые параметры

Ширина и высота картинки, думаю, тут вопросов нет.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Буквально то, что и написано. Очевидно, что картинка будет меняться в зависимости от размера.
Большинство данных моделей, исключая некоторые файн-тюны и 768 версии SD 2.X тренированы для генерации 512х512, поэтому лучшей практикой является вариант, когда хотя бы одна из сторон является 512. Немного выше/шире тоже нормально, например 640х640. На 768х768 уже начнутся регулярные проблемы, но возможность сгенерировать хорошо - есть. Всё что выше уже трудно, и для такого используются доп. опции, в данном случае highres. fix.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Вполне хорошей практикой является удвоение сторон. То есть например:

Хотите сгенерировать большой портрет? Ставите firstpass width/height на 512/768, а основную генерацию на 1024/1536.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

DPM++ 2M Karras, сид 1, 30 шагов

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Конкретно для потретов не советую сильно трогать силу денойзинга, в данном случае это условный стоп-сигнал для генерации большой картинки, которая строится на основе малой, по сути img2img генерация. Низкий денойз не повысит качество, а сделает его хуже. Вот 0.35 например.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

А высокий - подвержен артефактам крупноразмерных генераций. Пример 0.90.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Здесь радикально плохого нет, но это просто удачная генерация, и, возможно, мой файн-тюн играет крупную роль, так как тренировал я его на 768, но это только теория. Одно факт, что картинка на 0.7 денойзе всё-таки лучше.

Кстати важно упомянуть, что для хорошего хайрез. фикса стоит включить данную опцию в настройках:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Она находится в данном блоке:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Данная настройка позволит не апскейлить картинку с помощью LDSR, что даёт откровенно плохие результаты, а сразу перейти к генерации полноразмерной картинки из латентного пространства.

Следующая фича генерации - Tiling

Она позволяет делать зацикленные картинки, полезно для текстур. Собственно всё. И я знаю, что рассказываю о них в обратном порядке.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Restore Faces

Позволяет фиксить лица. Актуально для стандартных SD моделей. Не очень актуально для аниме моделей.
Может использовать GFPGAN или CodeFormer модели. CodeFormer лучше. Выбрать какую использовать, и с какой силой можно в этом блоке настроек.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

В нашем случае оно сильного эффекта не даст, но немножко сделает губы приятнее.

Batch параметры

Count - количество генераций друг за другом за раз.
Size - количество картинок в одном батче. Использует больше памяти.
То есть если вы поставить 4 генерации по 4 картинки - получите 16.

CFG

Данный параметр - сила промпта. Насколько точно модель должна ему следовать.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

От 4 до примерно 17.5 можно получать хорошие результаты(не которые в плоте, очевидно), в зависимости от промпта, модели, гиперсеток и других модификаций. Возможно скоро появится расширение для сохранения композиции высокого CFG при цветах низкого. Данный пул уже существует, но AUTOMATIC попросил его автора сделать это в виде расширения(если я не путаю с интерполяцией между CLIP слоями), что бы установить могли те, кому это нужно, так что ждём, фича полезная.

Сид

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Просто способ рандомизации, который позволяет пересобрать те же самые картинки задавая нужный сид. Больше сказать нечего.

Экстра

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Сид вариации - позволяет интерполировать между двумя сидами, сила которого задаётся в Variation strength, условно 0.5 будет иметь 50/50 от двух сидов:

Допустим сид вариации 2 на силе 0.5

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Иногда позволяет улучшить детали, иногда портит генерацию. Если знаете хорошие сиды - тогда процесс может быть не рандомным.

Ресайз сида ширины и высоты

По сути, вы задаёте, с какого размера будет происходить не генерация нового шума, а растягивание. Данная настройка может помочь сохранить композицию при более крупных размерах.

Например давайте добавим ресайз высоты 512. Только помните, что ширину тоже нужно выставлять, у меня без этого не работало.
Вот что вышло:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Если проверить генерацию на 512х512, то вот как выглядит она:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Так же работает в обратную сторону, генерация 512х512, но с ресайзом с 1024х1024:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Хотя не сказал бы, что 1024х1024 генерация похожа на верхнюю:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Но точный результат предугадать почти невозможно.

На этом можно закончить разбор параметров генерации.

Далее есть меню скриптов, вы увидите только базовые, если ещё не установили другие. Разбирать их смысла в этом посте нет, многие из них потребуют отдельного краткого гайда.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

img2img

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Собственно большую часть вы уже понимаете из предыдущего раздела, поэтому пройдусь я только по различиям и новым функциям.

Img2img используется для изменения существующих картинок, перегенерации на их основе, или же инепеинтинга/оутпеинтинга, для изменения деталей в самой оригинальной картинке.

Ресайзы, кропы и филлы

Это варианты изменения изначальной картинки перед img2img процессом.
Ресайз сожмёт вашу картинку без изменения контента, и стороны могут быть растянуты, если стороны не совпадают. Кроп и ресайз отрежет лишнее и сожмёт/увеличит картинку до нужных размеров, в данном случае пострадает контент.
Ресайз и филл заскейлит картинку до нужного размера и зальёт полосами, если соотношение сторон не совпадает. Таким образом контент не пострадает, но у вас будут полосы по каким-либо сторонам.
Ресайз латента - не уверен, но по моему оно не применяется в img2img, только для инпеинтинга/аутпеинтинга. Это новая опция. Результаты с ресайзом не отличаются от обычного ресайза, без латентного апскейла, при img2img процессе. Без кропа, в оригинальном разрешении, разница так же отсутсвует.

Денойз

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Степень изменения оригинала, или же денойза шума при его использовании в инпеинтинге. Больше денойз - больше изменения.

Денойз 0.35:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Денойз 1:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Промпт использован не был, поэтому результатом становится рандомная картинка без какой-либо композиции.

В img2img скриптов может быть ещё больше. Именно это меню используется для различных нетривиальных задач, как создание ключевых кадров для стилизованного видео, аутпеинтинг, SD апскейл и другие фишки, многие из которых требуют установки расширений.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Инпеинт

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Данное меню позволяет изменять композицию существующей картинки, вместо генерации новой.

Маска может быть нарисована вручную прямо в интерфейсе, либо загружена.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Я бы не пользовался для целей инпеинтинга данным меню, а пошёл бы в OpenOutpaint, но в целях написания данного поста воспользуемся кустарными методами данного меню. Прошу, не делайте такие плохие маски как я...

В зависимости от вашего предпочтения, можно инпеинтить либо то, что в маске, либо вне её.

Блюр - позволяет блюрить границы маски, дабы границы не имели резкого перехода, но держите в уме, что данные границы тоже меняются и могут задеть что-то, что не нужно задевать.

Masked Content

Отсылает нас к тому, чем будет заполнено пространство маски.

fill - зальёт картинку новой генерацией, как я понимаю.

Допустим я хочк заменить бэкграунд на город, денойс 1:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

При денойзе 0.5 уже города не будет, а будет просто серая масса.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Такое происходит, так как среднее при заливке на данном сиде будет серая масса.

Оригинал

Данный мод будет стараться перегенерировать на основе информации с оригинальной картинки, вместо заливки поверх неё.
Данный режим даёт результаты и на 0.5:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

На 1.0 почему-то появляется рука, видимо из-за близкого её расположения к маске, и, так как мы рисуем на её основе, генерация решила, что там должна быть рука.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Латентный шум

Зальёт маску шумом, вместо использования оригинала.
1.0:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Проблема данного метода в том, что он требует высокий денойз, так как заливает картинку шумом. При 0.5 картинка до сих пор вся в шуме:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Латентное ничего

То же самое, только заливается не рандомным, а однообразным шумом. Так же не работает на низком денойзе, 0.5:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Результат идентичен предыдущему методу на 1.0:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Инпеинт в полном разрешении

Данная функция нужна, если вы пытаетесь поправить мелкие детали, в таком случае лучше её использовать. Она апскейлит зону маски до размера полной генерации, перерисовывает и уменьшает до нужного размера. В случае бэкграунда роли не играет, так как он и так в полном разрешении.

Но если нужны мелкие детали, например добавить украшения, то это полезная функция.

Например поменяем серёжки, при инпеинте в полном разрешении:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Без данной фишки:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Ресайзы идентичны основному окну img2img, поэтому заново их трогать не будем.

Третье же окно данного раздела нужно для массового процессинга картинок по принципу img2img, ничего нового там нет.

Размер паддинга нужен для сохранения контекста, это размер области вокруг маски, которая будет принята во внимание и будет так же заскейлена, но не изменена.

Extras

В данном меню находятся различные апскейлеры, всё.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Я не люблю ни один из них, так как они не дорисовывают детали, кроме LDSR, который неимоверно долгий и не очень хороший. Лучше используйте полноценный SD Upscale скрипт в img2img, он дорисовывает детали.

4x_Struzan_300000, 8x_HugePaint_v1 и DigiPaint350000 НЕ являются стандартными и были добавлены вручную, у вас их не будет.

Кратко, Lanczos и Nearest это по сути и не апскейл, а просто алгоритмы ресайза, которые вы можете использовать и в фотошопе. Остальные же имеют свои особые алгоритмы, либо являются моделями для апскейла, но в данном меню они не будут рисовать детали.

PNG Info

Позволяет проверять метаданные картинки. Если вы не изменяли картинку, то она будет хранить в себе все данные о промпте, модели, гиперсетях, инверсиях и настройках, вплоть до сида ENSD.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Checkpoint Merger

Позволяет совмещать разные модели. Ну или скорее интерполировать их веса по разным формулам. Сами формулы есть в подсказках при наведении, они простые.

Оно НЕ способно перенести веса разных моделей без потерь, так как их размер ограничен и они не могут быть просто добавлены(данным методом), именно поэтому я это и назвал интерполяцией.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Формат safetensors загружается быстрее чем ckpt, к слову.
safe as float16 сохранит модель в виде ужатой двухгиговой версии. Это не должно кардинально влиять на генерацию, но может ухудшить общий результат, но не сильно. Зато сэкономите 2 гига.

Меню тренировки

Данное меню не имеет в себе базовых параметров, поэтому рассматриваться не будет. Оно предназначено для продвинутых пользователей, которые хотят тренировать модели. Если вы таковой - прошу в мои старые посты с гайдами по тренировкам(которые надо переписать под новую информацию, но да ладно...).

Настройки

Я бы хотел по ним пройтись, но боюсь мои настройки захламлены различными меню расширений, которых у вас не будет, и, лучше, если вас оно не будет пугать. Ничего такого, что могло бы сильно повлиять на генерацию - там нет, кроме пары параметров, как апскейл латентов для хайрез. фикса, который мы уже разобрали.

Разве что, можете включить эти настройки, если вам не важна совместимость с генерациями, сделанных до включения этих настроек.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Они могут менять генерации текущих сидов, но в общем должны делать лучше.

Так же приятная, но совсем не обязательная фича:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Недавно появилась настройка для более лёгкого превью, пусть и в низком качестве. Full не рекомендуется, так как замедлит генерацию, если вы используете некоторые флаги для оптимизации использования видеопамяти. Так же оно повышает использование памяти при генерации, так как выводит полноценную картинку во время её. Может испортить генерации на грани памяти. Approx NN и cheap являются куда более приемлемыми вариациями, которые выдают картинку в 4 и 8 раз меньше соответственно, что не использует много ресурсов и происходит быстро. Приятно смотреть на генерацию, почему бы и нет. Так может показать вам процесс денойза при большом количестве шагов.

Расширения

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Позволяет обновлять и устанавливать расширения прямо из интерфейса.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Их там довольно много и каждое имеет описание, поэтому вы сможете подобрать то, что вам нравится и нужно. От простой галереи до генератора музыки на основе генерации картинок.

Инверсии - эмбеддинги и гиперсети

Эмбеддинг - токен, знание которого основано на том, чему вы, или кто-либо ещё, его натренировали. Это может быть персонаж, объект, стиль и т.д.

Они могут быть добавлены в промпт с помощью <name> данного синтаксиса, как, например, я и делал на протяжении всего данного поста в негативном промпте :)
UPD: Я старовер, поэтому их использую, спасибо Ланселапу, что указал на то, что сейчас можно без стрелочек, просто указывая имя эмбеддинга. Но из-за этого стоит быть аккуратным в их наименовании, ибо даже являясь частью другого слова, короткие эмбеддинги будут вызываться.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Без них картинка выглядит так:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

И, что бы вам не листать, так она выглядит с ними:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

В данном случае данные эмбеддинги тренированы, что бы предоставлять заведомо плохое знание, объекты, которые видеть не хочется, и благодаря этому убирают их, при использовании в негативном промпте.

Так выглядит генерация только с ними в позитивном промпте:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Гиперсети так же могут быть скачаны с интернета. Их не нужно применять в промпте, они являются надстройкой над моделью, которая ведёт её к желаемому(или нет) результату.

Они могут быть слабыми, как например моя Repo гиперсеть, которая лишь немного улучшает картинку, субъективно конечно:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Или сильными, как GFL real v2, заточенная специально под мою кастомную модель:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Так же есть старая версия данной гиперсети, я её тоже очень люблю, но к сожалению она выдаёт чёрный квадрат на сиде 1, поэтому использую рандомный:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Она имеет более стилизованный, немного грязный, вид.

Так же можно использовать гиперсети, предназначающиеся для абсолютно не подходящих вещей. Вот эта например тренировалась на воксельном арте различных построек и локаций:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Она перейдёт в квадраты на хайрез фиксе, но что поделать.

Синтаксис для усиления/уменьшения силы слов

Используйте () для усиления слов, например: ((word)), или так (word:1.5).
И [] для ослабления, [[word]], ЛИБО (word:0.5), да-да, не [], а ().

Подробнее о более продвинутом использовании можно почитать в моей статье про промпт-крафт: тык

--------

Инверсии и гиперсети, да и вообще различный полезный контент, вы сможете найти в материалах в конце поста. Которые я показал вы не найдёте - это мои личные.

Менять их вы, кстати, должны будете в настройках, но я буквально не могу вам это показать, так как у меня оно там не находится, а выведено в поле быстрых опций:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Что бы сделать так же, вставьте это:

sd_model_checkpoint, sd_hypernetwork, CLIP_stop_at_last_layers, sd_vae

В это поле:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

И вы всегда сможете быстро менять гиперсети, VAE и CLIP слои в верхнем меню.

Ах да, CLIP

Данная настройка позволяет пропускать CLIP слои. Конкретно какие - у меня нет информации, но в общих чертах, больше скип - менее точно передаётся промпт, если в нём есть конкретика.

На НЕКОТОРЫХ моделях скип выше 1 может привести к более интересным результатам. Так например стандартный скип на NovelAi является 2.

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Так же существует возможность скорого мержа реквеста с фичей интерполяции между этими результатами, либо создания расширения с таковым, по умолчанию нельзя пропустить 1.5 и подобное таковому.

Дополнительные материалы

Немного устаревший, но до сих пор огромный архив моделей и ссылок на них - https://rentry.org/sdmodels - Множество NSFW моделей, включая нишевые фетиши. Вы предупреждены.

Страница с новостями, тоже на английском, извините, данного контента на русском никто особо не делает - https://rentry.org/sdupdates3

Монструозная работа по сортировке и презервации различной информации, советов и исследований на тему генеративных нейронных сетей, очень много очень полезного очень материала, но на английском - https://rentry.org/sdgoldmine

Внимание, качайте модели, гиперсети, инверсии и т.д. с осторожностью. Они МОГУТ содержать вирусы. Данное не касается только основных официальных моделей(Stable Diffusion 1.0-2.x, Waifu Diffusion, NovelAI и некоторых популярных файн-тюнов) и моделей расширения .safetensors, таковые безопасны. Но гиперсети и инверсии не поддерживают данный формат как я знаю, на данный момент, поэтому проверяйте, что качаете.

Внеинтерфейсовые флаги

Их вы прописываете здесь:

Глоссарий(?) по стандартным(и не очень) параметрам, фичам и синтаксису промптов Stable Diffusion с примерами + материалы

Откройте webui-user.bat блокнотом.

--medvram | --lowvram
Для уменьшения использования памяти. Полезно для генерации крупных размеров, многих картинок за раз, либо для слабых видеокарт с менее чем 8/6 гигами памяти.

--xformers
Вид оптимизации. Уменьшает потребление памяти, меняет генерацию(но не её качество(в основном)). Вредит стабильности картинок, но не сильно. Возможно ускорение генерации вплоть до +100% в некоторых случаях.
Запускается по умолчанию ТОЛЬКО на GTX 10хх, RTX 20хх, RTX 30хх и RTX 40хх линейках. Если не работает - смотрите гайд, как их собрать, или скачивайте. У меня работают по умолчанию.

--no-half-vae
Если часто появляются чёрные коробки вместо генераций - это ваш друг. Особенно в img2img, так как там они особенно часты(если появляются вообще), и неприемлемы. Сильно увеличивает использование памяти при генерации.
--no-half
Требуется, если у вас проблемы с любой генерацией, такое бывает на 16хх линейке, если не ошибаюсь, особенно с SD 2.x моделями.

--api
требуется для некоторых расширений, или для использования каких-либо внешних проектов, как openOutpaint.

--disable-safe-unpickle
Нужно для конкретного расширения - Deforum, а так же других, которые используют некоторые внешние модели(в данном случае для анализа глубины в 3D пространстве)(не всегда, но они вам об этом скажут). Потенциально опасный флаг, так как убирает защиту от потенциально вредоносных моделей, если в них найдётся потенциально опасный участок, который может быть принят за вирус.

Вы можете видеть у меня флаг --deepdanbooru, но на данный момент он ничего не делает, так как данный контент теперь вроде как интегрирован в основной интерфейс.

Это должны быть все флаги, которые вам могут потенциально понадобиться для комфортного использования Stable Diffusion за вашей пекой.

Послесловие

Вроде прошёлся по всей основе, да даже не основе, которая может понадобиться новичкам(и не очень).

Скрипты трогать не стал, кроме тех, которые затрагивают семплеры, так как это уже совсем отдельная тема, в некоторых случаях требующая чего-то кроме интерфейса, что бы использовать.

П*здец заеб*лся это писать бл*ть. Извините уж за ошибки, если есть, текста много.

Красивые картиночки Сахарозы с использованием Сонара, негативных инверсий и гиперсетей для тех, кто дочитал:

Sonar, DPM++ 2M Karras, 100 шагов, Repo гиперсеть, кастомный файн-тюн Anything3, highres. fix 512x768 - 1024x1536
Sonar, DPM++ 2M Karras, 100 шагов, Repo гиперсеть, кастомный файн-тюн Anything3, highres. fix 512x768 - 1024x1536
Sonar, DPM++ 2M Karras, 100 шагов, GFL real v2 гиперсеть, кастомный файн-тюн Anything3, highres. fix 512x768 - 1024x1536<br />
Sonar, DPM++ 2M Karras, 100 шагов, GFL real v2 гиперсеть, кастомный файн-тюн Anything3, highres. fix 512x768 - 1024x1536

Не фикшены, оригинальная генерация. Добавлена только вотермарка.

Контент для взрослых
269269
65 комментариев

Спасибо огромное за ключик к киберпанку, спрятанный в середине текста! Пойду ещё искать, не думал, что так случайно повезёт.

23
Ответить
Автор

За что ты так людей не любишь? xD

7
Ответить

Хорошо. Я проскроллил, но хорошо

7
Ответить

Не, ну это зверь, а не человек.

6
Ответить
Ответить

Ого, работа проделана огромная огромная, респект!
Но я вот не пойму, зачем аниме-тян в таком количестве генерировать? Эта нейронка что-нибудь другое умеет рисовать?

4
Ответить
Автор

Я люблю маняме, а так же нужно генерировать одно и то же для того, что бы прослеживалась связь в посте. Генерировать может много чего. Это в принципе общенаправленные модели, так как базированы на SD 1.5, но тюнены под аниме.
Существует тонна более узконаправленных моделей под различные стили, объекты, медиумы и т.д. Недавно например скачал модель, которая концентрируется на фотореалистичных рендерах ландшафтов.
Или вот я её совместил с аниме моделью и генерировал машинки, врум-врум.

Мне нравится так же как аниме модель может генерировать лавкрафтовскую еботню, если задать правильные параметры, мне даже смотреть сквозь папки тех генераций не особо приятно xD

5
Ответить