SDXL: почему у модели нет будущего? (+инструкция по установке SDXL)
Вчера все каналы о Stable Diffusion и нейросетях пестрели заголовками об утечке и сливе (или "утечке" и "сливе") моделей SDXL 0.9, но почему-то без примеров рисунков от авторов блогов и каналов.
Я решил поступить иначе: не писал про утечку, зато немного порисовал на SDXL 0.9, расстроился и решил поделиться мыслями о модели с вами.
Интерфейс ComfyUI, в котором будем работать с SDXL
Инструкция по установке
На момент написания поста Automatic1111 не поддерживает работу с моделями SDXL. Чтобы удовлетворить любопытство и порисовать нам потребуется установить ComfyUI — невероятно мощный WebUI для работы со StableDiffusion.
Если вы не знакомы с нодами — не пугайтесь, есть ссылка на набор готовых нод для рисования именно на моделях SDXL (пайплайн от Replicart).
При скачивании обратите внимание на расширение моделей (должно быть safetensors). Расширение ckpt или любое другое — лучше обойти стороной и скачать в другом месте.
- Подготовка: у вас уже должны быть установлены и прописаны в PATH Python 3.10.6 и git.
В консоли (находясь в любой папке) прописываем команду и дожидаемся её выполнения
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 xformers
Вызываем консоль в папке, куда будем устанавливать ComfyUI (кликаем в адресной строке проводника, удаляем всё, пишем cmd, жмём энтер на клавиатуре), выполняем команду, дожидаемся выполнения
git clone https://github.com/comfyanonymous/ComfyUI- Переходим в папку со скачанным ComfyUI и выполняем в консоли команду
pip install -r requirements.txt - Скачиваем модели и vae, кладём скачанные файлы в соответствующие папки ComfyUI\models.
- Запускаем файл main.py, в браузере переходим по адресу http://127.0.0.1:8188
- Перетаскиваем файл пайплайна в окно ComfyUI, выбираем модель и рефайнер, пишем промпт и негатив, рисуем, расстраиваемся
Если на этапе 6 в консоли выпадает ошибка "Torch not compiled with CUDA enabled", то закрываем сервер, в командной строке выполняем две команды и перезапускаем сервер
pip uninstall torchpip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 xformers
Сравниваем работы SDXL 0.9 и SD 1.
При сравнении использовались лишь промпты, прочие настройки (семплер, шаги, сид и прочее) не актуальны из-за серьёзной разницы между моделями.
Почему у SDXL нет будущего?
Основные недостатки рисунков на SDXL, которые сразу бросятся вам в глаза:
- SDXL совершенно не слушается привычных по моделям 1.5 промптов. Примеры в посте.
- SDXL СТРАННО работает с фокусом: два соседних участка изображения могут быть в фокусе и расфокусе.
- Разорванные горизонты и прочие несостыковки в кадре
- Модель слишком сильно старается быть похожей на Midjourney и пытается улучшить картинку даже там, где улучшение не требуется.
Но всё это могло бы не иметь значения, если бы в датасете были NSFW изображения и модель умела бы рисовать ВСЁ, что её попросят.
Попробую раскрыть эту мысль подробнее. Помните какой бум случился после релиза оригинальных sd-v1-5? Как начали появляться сотни руководств по установке автоматика, скачиванию моделей и промптингу? Я не помню, честно.
Спустя несколько месяцев в сеть утекли непубличные модели NovelAI, тут-то всё и завертелось. Инструкции по установке автоматика, скачиванию модели и рисованию аниме, в течение недели появились на всех языках мира. Кастомные (хехе) модели появлялись в базах данных быстрее, чем грибы после дождя в лесу. Количество блогов росло по экспоненте, суммарное качество оставалось на одном уровне.
Затем появилась civitai со всеми нашими любимыми моделями. И рисование на диффузиях стало именно таким, каким мы его знаем сегодня.
А всё почему?
Людям интересно рисовать голых аниме девочек, а больше им ничего не интересно. И один я, чудила, рисую на аниме моделях пейзажи (промпт).
Без возможности рисовать NSFW модели SDXL принципиально неинтересны файн-тюнерам.
Без интереса файн-тюнеров не будет новых кастомных моделей на базе SDXL.
Без новых кастомных моделей у поколения SDXL нет будущего. Повторится история 2.0 и 2.1.
StabilityAI откроет собственный платный генератор рисунков и попытается конкурировать с Midjourney. Бог им в помощь!
Чтобы не заканчивать пост на грустной ноте порекомендую свои руководства по Stable Diffusion:
В комментариях с удовольствием отвечу на вопросы о SDXL.
Рисую на Stable Diffusion, буду рад вашим лайкам.
Буду рад видеть вас на техническом канале о Stable Diffusion, где выпускаю обзоры расширений и инструментов, пишу про использование токенов, и показываю красивые модели.
Так себе аргументация конеш
1. Сравниваем результаты беты базовой модели с результатами специализированных моделей на тех вещах на которых эти модели долго и старательно тренировались
2. пишем странные аргументы не особо связанные со сравнением
3. выкидываем эти аргументы в мусорку и говорим что главная проблема в отсутствии порева
Теперь я приведу аргументы почему у SDXL будущее есть:
1. Это только бета и судя по всем обсуждениям релизная версия будет прилично отличаться а не просто чуть отполируется
2. Судя по скриншоту использована неправильная схема, для SDXL в этом интерфейсе есть специальные ноды с которыми результат значительно лучше
3. Близкий к разрабам человек мамой клянется что придумал еще более качественную и эффективную схему дающую еще более крутые результаты, выложить ее не может из-за НДА но хоть примеры есть
4. 2.1 не взлетела не только из-за прона но и из-за серьезных проблем с обучаемостью и поддержкой инструментов, для SDXL разрабы заранее связывались и с разработчиками контролнота и интерфейсов, также связывались с людьми которые обучают самые клевые модели для 1.5 и похоже что реально слушают их фитбек и делают изменения базовой модели
5. Даже базовая модель местами может потягаться со специализированными 1.5 моделями, учитывая размер модели и возможности обучения кастомные должны быть на 3 головы выше
6. Порево - сам не тестировал но судя по комментам SDXL в этом плане намного лучше 2.0 и немного отстает от 1.5
Один фиг сейчас это гадание на кофейной гуще, надо дождаться нормального релиза и посмотреть как оно.
Спасибо за развёрнутый комментарий! Вижу, что вы лучше меня понимаете что происходит с SDXL Очень интересно обменяться с вами мнениями и опытом.
Сравниваем то, как модель слушается промпта. SDXL чуть лучше слушается в браузерной версии (на ресурсах StabilityAI), и значительно хуже в локальной. В обоих случаях модели далеки в качестве понимания промпта от 1.5. Проблему отметил не только я, но и многие сильные промптеры, с которыми знаком. Вывод сделан не только на попытках порисовать на неудачном пайплайн, но по опыту работы с веб-версией. Охотно верю, что плохие результаты локальной версии целиком зависят от неэффективного пайплайна, который надо переделывать с нуля. Но это не объясняет беды веб-версии.
Проблема модели не только в отсутствии NSFW (не только порно), но эта — ключевая.
1. Не знаю какой подход к версионности в StabilityAI, но 0.9 звучит как "почти релиз". Хочется надеяться, что в 1.0 всё будет лучше, но это непросто.
2-3. Ждём релиза и появления в открытом доступе более эффективных схем. Других вариантов у нас нет.
4. Да, в SDXL на старте будут основные инструменты. Если окажется, что скептецизм сообщества не обоснован — инструменты перевернут игру.
5-6. Отсутствие обнажённых тел ухудшает генерацию одетых. Чтобы выдать корректную анатомию модель должна понимать как устроено тело человека. В SDXL этого из коробки нет и потребуется дообучение на огромных датасетах. Из любопытства тестировали раздетых людей. Модель старается нарисовать одежду даже когда явно прописано отсутствие одежды. При описании чего-то совсем развратного модель включает дуру и отказывается рисовать совсем, вплоть до генерации абстракций.
А что сейчас по итогу на 24-ый?
Порно - двигатель прогресса!
Нет порно - нет прогресса!
Всё для зоргена!!!
Но сравнение некорректно. Ты сравниваешь базовую модель с дообученными моделями и миксами..
Ее надо сравнивать с SD 1.4/1.5 и SD 2.0/2.1