Нейросети, генерирующие изображения, сейчас на пике популярности. В то время как все балуются Dall-E2 , MidJourney и Stable Diffusion, есть ещё одна модель, которая не так хорошо известна в интернете. Имя ей: ERNIE-ViLG.ERNIE-ViLG — генератор изображений с открытым исходным кодом, разработанный китайским технологическим гигантом Baidu. Название нейросети расшифровывается как Enhanced Representation through Knowledge Integration — Vision Language Generation. Несмотря на некоторую схожесть со Stable Diffusion, это разные нейросети. По крайней мере, если верить этому документу. Протестировать новый китайский инструмент можно здесь: ERNIE-ViLG Demo. Он бесплатен и ограничений на количество сгенерированных изображений мы не увидели. Хотя генерация изображений идёт не быстро — придётся запастись терпением.Интерфейс довольно прост: перед вами простейшая форма для ввода текста, почти два десятка разных художественных стилей и кнопка генерации изображений. Внизу ещё есть подсказки — примеры популярных запросов. Ещё важно помнить, что ERNIE разработан на китайском языке. Это означает, что английская фраза сначала переводится на китайский язык, и только потом начинается генерация изображений. Некоторые сотрудники Cloud4Y вдоволь поигрались с популярными нейросетями, поэтому мы решили потестировать и новинку. Вот что у нас получилось.Тестируем фантазиюНачать мы решили с запроса, который требует некоторой доли фантазии: A cat with glasses fights for a laptop with a robot. Все запросы мы составляли таким образом, чтобы они выглядели максимально примитивно — тогда их лучше понимает машина.Вот такой вариант в стиле "Футуризм" сгенерировал ERNIE.Как вы можете видеть, есть пара интересных вариантов, но в целом результат не впечатляет. Первый DALL-E выдавал нечто похожее.Хорошо, подумали мы. А если взять не абстракцию, а нечто более конкретное? Например, Dracula is learning Python program code. Увы, здесь нас постигло горькое разочарование. Нейронка упорно не хотела показывать мало-мальски приличные варианты.Вот что получилосьГрафа Дракулу нейросеть не знает. Но что насчёт просто вампиров? Итак, vampire learns Python program code on a laptop.Ну, тоже "не ах"Кое-что вампирское здесь уже проглядывается, но всё равно результаты не впечатлили. Может, надо попросить нарисовать что-то ещё более известное? Давайте скормим ERNIE запросы айтишной направленности.Облака, нейросети и РоссияДокер-контейнеры пробовали многие, так что мы решили начать с них. А чтобы увеличить шансы на успех, добавили ещё пару элементов. Kubernetes with blackjack and kittens. +1Похоже, ERNIE из этого набора слов нравятся только котикиСовсем далеко от того, что нужно. Сделаем такой запрос: Docker container, photos with laptop and kittens. Котиков добавляли по той простой причине, что без них на выходе получалась совсем уж причудливая абстракция. +1Что-то рядом, но не тоДавайте немного уточним запрос. Kubernetes container, photos with laptop and kittens. А ещё выберем мультяшный стиль.Не, что-то контейнерное в этом естьДа, с контейнерными технологиями Эрни не очень дружит. Интересно, нейросеть знакома с облачными технологиями? Проверяем: Russian cloud technology. +3Некоторые изображения похожи на испорченные фотографии. И практически везде нам показывают собор Василия Блаженного. А если упростить ещё больше? Russian technology.Вот такие вот технологииНе совсем понятна логика машины, но ладно. Давайте без привязки к геополитике. Представим, что счастливый эльф купил видеокарту. Как его покажет ERNIE? Elf brings home a video card (cartoon).Своеобразные эльфы, конечноМультяшные варианты пугают. А как насчёт реалистичного стиля? Будет хуже или лучше? Пробуем...Elf brings home a video card (Realistic)Не, верните всё как было. Получилось совсем уж странно. Похоже, китайкой нейросети ещё учиться и учиться, прежде чем она сможет показать результат, близкий к западным аналогам. Впрочем, китайцы быстро учатся. Эксперименты с разными стилямиПока что китайская нейросеть генерирует не самые удачные изображения. А что, если взять максимально простые вещи и нагенерировать их в нескольких популярных стилях? Возьмём, к пример, sun, flowers and children. Стиль — реалистичныйРеалистично?А если это будет масляная живопись? +2Попробуем добавить кукольности, режим Lolita +2Результаты вполне неплохие. Если не вглядываться в то, что на них изображено, то платья можно назвать красивыми. Следующий стиль — cyberpunk. +2Некоторые изображения определённо имеют право на существование, хотя и нуждаются в доработке. Но мы не будем останавливаться, продолжаем эксперименты: Baroque. +2Стиль определённо прослеживается. А вот реалистичность — нет. Давайте тогда совсем оторвёмся от реальности и протестируем аниме-стиль. +2Как и у многих других изображений, сгенерированных нейросетью, здесь видны проблемы с конечностями, глазами, позами. Хотя и определённая красота имеется. Так что ERNIE вполне себе интересный инструмент для баловства и экспериментов.Ещё немного картинок +2ERNIE доступен через APIСледуйте инструкциям в руководстве GitHub, если захочется попробовать API (но не забывайте, это китайская нейросеть, поэтому многие инструкции тоже на китайском). Показывайте, что интересного получилось у вас!
Комментарий недоступен
Можно, но только один раз
Да, но результат скучный
Комментарий недоступен
Комментарий недоступен
Комментарий недоступен