Регистрация в Dall-e 2 для чайников
И немного собственных опытов
Не так давно разработчики из openAI открыли доступ к новой версии нашумевшей нейросети для генерации изображений по текстовому описанию, но не всем удалось догадаться как можно ей пользоваться, не проживая в странах Европы или США, поэтому делюсь коротким гайдом, как это удалось мне.
Сразу скажу, я не проводил тестов и возможно некоторые отступления от гайда сломают вам регистрацию, вы можете попробовать поэкспериментировать сами и отписать фидбек в комменты — я дополню гайд.
Что нам потребуется:
— VPN, желательно со статическим или полу-статическим IP
— Примерно 50 рублей
— Сайт для покупки номеров для активации аккаунтов
Собственно, гайд:
- Подключаемся в VPN
- Регистрируем аккаунт на сайте openAI, я использовал почту gMail
- При переходе на страницу подтверждения номера покупаем номер страны, в которой находится VPN-сервер и активируем аккаунт купленным номером телефона
- Кайфуем
Теперь с подробностями, как это делал я:
- Первым делом, нужно изменить свое местоположение. Я пользуюсь WireGuard туннелированием на выделенный сервер в Нидерландах, этого достаточно, чтобы сайт перестал думать, что я нахожусь в России.
Вы можете попробовать иные VPN сервисы, но я не гарантирую, что бесплатные или даже платные, но популярные сервисы дадут нужный результат, поскольку они не предоставляют статический IP адрес - Далее — регистрируем новый аккаунт, я использовал gmail почту, хоть там и стоят все настройки для РФ и номер привязан соответствующий, все сработало как надо и я добрался до окна подтверждения аккаунта по номеру телефона
- Самый «запарный» момент, получить номер страны, которой я «нахожусь». В моём случае — Нидерланды. Я перепробовал много «бесплатных» номеров в открытом доступе, но ни один из них не сработал. Некоторые уже были использованы для создания аккаунтов на сайте, другие просто не принимали SMS.
Тогда я воспользовался популярным сервисом по покупке временных номеров для активации аккаунтов (не знаю, можно ли писать здесь название этого сайта, но дам подсказку — он на первой странице гугла, но не первый в списке, примерно в середине). Покупка приватного номера Нидерландов без привязки к сервису регистрации обошлась мне в 57.90₽, пополнение на сайте доступно через множество различных платёжных систем, я выбрал систему с оплатой по СБП, комиссия составила 1,045%, хотя заявлено было 3%.
Номер успешно подошёл, код активации пришёл и я подтвердил аккаунт. - Вот и всё
По поводу того как работает Dall-e:
- В отличие от MidJourney, здесь видно сколько кредитов на аккаунте — по стандарту их 50 и ровно спустя месяц они обновляются до 15. То есть, неважно сколько у вас кредитов — их станет 15 и дальше каждый месяц будет также.
- Существуют 3 доступных операции, каждая стоит 1 кредит:
- Генерация 4 изображений по одному текстовому запросу
- Генерация 4 вариаций по созданному изображению или пользовательскому загруженному изображению
- Генерация части изображения (4 вариации) по текстовому запросу (или расширение изображения)
Я попробовал каждую, используя запрос из новости про перегенерацию моделей Fallout в stableDiffusion, поскольку я имею некоторые сложности с формулированием подробных запросов.
Woman in metal armor Mad Max Fallout, modern style, detailed face, beautiful face, by Greg Rutkowski and Alphonse Mucha, D&D character, in front of an urban background, digital painting, concept art, smooth, sharp focus illustration, ArtStation HQ
Генерация нового изображения по запросу
Как видно, картинки получились неплохие, достаточно проработанные и качественные.
Генерация вариаций изображения
В качестве референсного изображения я выбрал первое из прошлой подборки.
Редактирование изображения по текстовому запросу
На сайте представлен простой редактор — можно вставить свое изображение, нарисовать простые геометрические фигуры или стереть части изображения. Те части, которые остались стёртыми — нейросеть дорисует. В качестве референса я взял изображение созданное по тому же запросу в stableDiffusion, где нейросеть плохо справилась с лицом. Я стёр лицо и часть плеча слева и в качестве текстового запроса задал описанный выше.
Самое удачное, на мой взгляд — с розовым лицом, поправить цвет можно в фотошопе, а по качеству детализации оно вышло лучше всех.
Генерация по референсному изображению из stableDiffusion
Как показывает опыт — нейросеть нормально генерирует лица с нуля, но если использовать референсное изображение с плохо сгенерированным лицом, оно будет таким же нереалистичным и кривым, как в исходнике.
Надеюсь, гайд был вам полезен и я не ошибся с подсайтом для публикации. Всем удачных генераций!
MidJorney предлагает за 10 баксов 200 картинок. За месяц наигрался. Сейчас поставил Стабильную Диффузию с веб-интерфейсом и в ней провожу эксперименты. Хотя по ощущениям MidJorney делает более красивые картинки. Даже по одинаковым запросам.
Тоже тыкал все три
— MidJourney пока лучшая, она выдает прям интересные результаты сходу, но функционал скудный. Разрешение выходных картинок задается вручную, плюс есть апскейлер.
— Dall-e лучше справляется с чем то абстрактным и больше следует текстовому описанию. Я там пробовал и пиксель-арт, и 3д графику, и лего человечков, и даже ASCII (не очень успешно) - все выдает исправно, MJ подтупливает на этом. Зато функционал шире, например дорисовка фона изображения или его частей это что-то. Разрешение картинок и детализация из коробки лучшая из всех доступных, вроде 1024*1024.
— Stable Diffusion - крутая штука, ещё и потому, что есть сейчас удобный вариант с GUI для чайников и мультиварок, но он выдает пока самые слабые результаты, особенно на лицах (мид лучше всех, далли - похуже). Для получения более-менее сносного варианта надо сначала сидеть перебирать параметры и запрос, потом генерировать вариантов 100 и потом из них выбирать подходящий тебе и уже с его сидом играться, однако функционал конечно самый широкий из доступных. Ну и плюс нет никаких фильтров (политических, NSFW и прочие) и она стоит у тебя на машине, без привязки к сети и можно делать вообще что угодно с ней.
Разрешение на выходе задаётся, но лучше всего справляется с 512*512, вроде как её обучали на таких изображениях. Есть апскейлер и восстановление лица, но на моей тачке не заводится, видимо, потому что у меня не RTX карта.
Ну и можно её самому до обучать, когда-нибудь доберусь до этого тоже, пока времени нет. Но особо надежд на это не возлагаю, пользовательские модели работают ужасно, либо не работают вообще. Как пример: есть модель "pixel-art", при её подключении картинка не особо похожа на пиксель арт, почти ничего не меняется, но вот если в запрос добавить "pixel art", то сразу все преобразуется как надо, даже без библиотеки. Неясно.
Как сервис с номерами называется?
Как называется узнал или еще ждем ?
Комментарий для ваших запросов.
Lenin plays tic-tac-toe with Kurt Cobain
Anthropomorphic cat walking down the street in white Nike sneakers full-length view ultra realistic