Replicart

+3848
с 2023

Знаете, я и сам своего рода нейросеть. Про stable diffusion пишу тут https://t.me/mrreplicart

159 подписчиков
18 подписок

хмм, окей, спору нет, не думал что перевод в латент может так помешать. Но в таком случае нам же никто не мешает дообучить автоэнкодер на пиксель арте, чтобы он выдавал более резкие границы? А если еще и модель нормальную сделать, так вообще красота будет, нет?

1

А как latent diffusion и апскейл мешает делать пиксель арт? Dalle-2 так то тоже диффузионная или дело в другом?
Мне кажется, с хорошей моделью может получаться вполне себе. Те же pixellabs и retrodiffusion свои модели сделали. Но если делать прям красиво, то по хорошему нужно изначально под другое разрешение модель делать, например под 64 и 128, а потом если нужно nearest'om интерполировать.

1

Промпты можешь глянуть тут https://civitai.com/models/76732/easy-sticker
Тыкаешь на картинку и там справа будут параметры генерации и промпт (цивитай их немного странно записал, но +- там все верно)
По пятому. Стикеры уже были, телеграмовские которые. Я их собрал, показал сетке и она научилась делать такие же. Лора - это как раз то, где это знание сохранилось

1

Все по делу, нечего возразить. Единственное, статья развлекательная, а не обучающая, поэтому вырезал все лишнее, иначе можно было бы и про подготовку датасета рассказать, и про тренировку, и про то как генерил, как обрабатывал и как пак собирал.
(если правильно понимаю, только въезжаешь в тему, поэтому напишу попроще)
1. stable diffusion - это отдельная программа (библиотека с кодом), она работает сама по себе. Но напрямую ей пользоваться неудобно, а для большинства технически неподкованных людей - просто невозможно. (если ты в колабе запускал, то это почти тоже самое, только мы бы все делали в блоках: и промпты в них писали, и настройки там меняли, и скрипты бы там подключали и это все вручную). Но! Для таких случаев, когда есть вся внутрянка, а никакого интерфейса нет, существуют другие библиотеки, которые сами ничего делать не умеют и отвечают только за внешний вид. В автоматике, например используется gradio. А "автоматик" - это ник парня который это собрал вместе и нескромно назвал в честь себя: Automatic1111. Если проводить аналогию то stable diffusion - движок, gradio - кузов, а автоматик - главный механик. Собственно автоматик это все вместе собрал, поэтому это обзывают сборкой. Точно также есть и другие сборки: переработанная версия автоматика от vladmandic, ComfyUI, VoltaML, Dreamstudio и так далее. У них у всех под капотом stable diffusion, но обернут он в разные оболочки.
2. Для генерации картинок нужна модель - это файл в котором храняться все знания нейросети. Лора - это еще один файл, который может влиять на работу модели.
3. Правки делал вручную в фотошопе: удаление фона и исправление обводки, если нужно было. Можно например не париться и использовать еще одну сетку чтобы убирать фон и ее можно добавить расширением к автоматику https://github.com/AUTOMATIC1111/stable-diffusion-webui-rembg
4. Не совсем понял вопрос. Все промпты пишу руками, сам.
5. Использовал ту лору которую создал, об этом первая часть поста. Лора: https://civitai.com/models/76732/easy-sticker

1

Пост сделаю, только если что-то прикольное нагенерю, а в канале напишу, если сам не пропущу. Но тут еще такой момент, что может и он забьет. Он делал модель для освещения (неплохая кстати https://huggingface.co/ioclab/control_v1u_sd15_illumination_webui), выложил первые версии и сказал: дотренирую - обновлю, приходите через пару дней. Прошел месяц; модели не обновлял.

1

Можешь из моего канала репостнуть, можешь спиздить, мне

50

Я и не утверждал что "популярнее" = "лучше". Я говорил конкретно про линейку 1.x
Из этой линейки моделей, в силу качества получаемых картинок, лучше всего себя зарекомендовали версии 1.4 и 1.5.

Есть "плохой" и "хороший" датасет, ты же сам про это пишешь.
Да, есть общая база laion'а, ну так если криво отфильтруем, как и получилось у 2-base, то получиться "плохой" датасет. Я же ссылочку указал в статье ты заходил ставил punsafe <= 0.1 чтобы посмотреть что там есть?

Почему про nsfw миф, если нет? Для 1.x мы не фильтровали датасет на nsfw, а для 2.x фильтровали. По моему, прямая взаимосвязь.

В итоге 2.x сначала тренировалась не на том датасете котором должны были, потом дотренировывали но обрезали nsfw + поменяли текстовую модель и как минимум промптить нужно по другому + все что сделало сообщество, с ней не совместимо и нужно все лоры/ембеддинги/модели делать заново. Возникает закономерный вопрос: переход на нее того стоит? Для большинства ответ нет.

Не вижу смысла дальше спорить, каждый останеться при своем

Чтобы я без тебя делал, спасибо *чмок*

1

1. По первому пункту, честно не понял. Из первых версий лучше 1.4 и 1.5, с чем ты, как я понял вполне согласен. Но считаешь вторую версию в принципе лучше первой (или нет?), что не отменяет того, что в первой ветке лучше всех 1.4 и 1.5
2. Я свечку не держал, поэтому сказать как на самом деле не могу.
Из того что пишут сами stability так и получается, что 2-base они сильно обрезали по датасету, а 2.1-base продолжили в нормальном варианте. Но объем тренировки на "плохом" датасете и на "хорошем", к сожалению не в пользу "хорошего". И получается что никого я тут в заблуждение не ввожу (приложил картинку)
Unstable написали про то что вторая версия хуже (в некотором смысле могу понять их выгоду говорить плохо про вторую версию, потому что там nsfw хуже) https://docs.google.com/document/d/1CDB1CRnE_9uGprkafJ3uD4bnmYumQq3qCX_izfm_SaQ/edit#
на реддите это тоже обсуждалось https://www.reddit.com/r/StableDiffusion/comments/z5v4nz/this_sub_right_now/
Что касается текстовых моделей, в статье это упомянул, но не углублялся. Что лучше openai'вский CLIP или OpenCLIP - хз. Я думаю, что большинству в общем все равно и если бы вторая версия делала лучше - то на нее бы и перешли, но необязательно, потому что если все уже привыкли к 1.x и есть куча наработок, то для того чтобы всем перейти на 2.x должны быть веские причины. А таких не оказалось
Если подкинешь ссылок почитать - буду только рад

Да, я об этом упомянул вскользь, чтобы не скатываться сильно в технику

1

Если сильно не запариваться, то можно взять https://github.com/AUTOMATIC1111/stable-diffusion-webui и использовать его апишку. Нужно будет только скачать модель, лору и написать отдельный скрипт для генерации и выбора параметров. Датасет нужен только для того, чтобы натренировать что-то, для того чтобы использовать уже натренированное он не нужен.
Если прям запариваться, то по хорошему нужно ознакомиться с этой либой https://huggingface.co/docs/diffusers/index (там все пайплайны для генерации и в целом понятно будет как оно работает) и ее уже можно будет прикрутить куда угодно и в каком угодно виде.

Ну если ты используешь лору, то она и так должна делать простой фон, если нет, добавь simple background в промпт, и вес лоры можешь увеличить. А в описании лоры тоже самое писал

Ну тут зависит от того как датасет готовишь (картинки с подписями, можно и без подписей, но в моем случае с ними). Если коротко, то все стикеры поместил на однотонный фон и в описании его НЕ писал

Тут товарищ правильно заметил, таких карт сильно меньше, но люди по разному из ситуации выходят. Может мимо, но тем не менее как пример штука чтобы карты для D&D генерить https://civitai.com/models/70723/table-rpg-dandd-maps-10-world-map
Если есть с чем работать, то без проблем можно сделать генератор таких карт

3

Любая первой версии должна работать нормально, я делал и с Dreamshaper, и Anythingv3, и какой-то orangemix тоже. Необычная какая-то ошибка честно говоря, размер тензора странный

Никто не запрещает тренировать на собственных наработках или работах своей студии, вон как Лебедев сделал. Нет смысла убивать отличную технологию и скорее всего не получиться. Выгоднее ввести ее как новый инструмент в индустрию и монетизировать, учитывая то, что при правильном использовании она может сократить затраты на разработку/прототипирование визуала
Как сказал какой-то тип
Не можешь победить - возглавь

11

на civitai примерные параметры можешь глянуть https://civitai.com/models/76732/easy-sticker
открываешь картиночку и там справа промпт и настройки, по большей части они правильные, хотя модель и лоры показывает неправильно, а исправить не дает(

3

Да, только надо чтобы это кто-то сделал. Так-то то что нужно, чтобы это сделать уже есть

1

Если нужно совсем по быстрому накидать, отличная тема. Он отлично берет референс фона и обводки, но и персонажа тоже, тут например как бы я не пытался ей сделать черное платье, ему все равно. А править в инпеинте, pix2pix'ом, или весами контролнета и промпта, по времени выйдет дольше чем скачать лору и не пытаться его перебороть

1

Может быть кстати, не пробовал, спасибо. Но мне кажется контролнет через референс будет менее гибким, чем лора.

3