ERNIE-ViLG — бесплатная китайская нейросеть

Нейросети, генерирующие изображения, сейчас на пике популярности. В то время как все балуются Dall-E2 , MidJourney и Stable Diffusion, есть ещё одна модель, которая не так хорошо известна в интернете. Имя ей: ERNIE-ViLG.

ERNIE-ViLG — бесплатная китайская нейросеть

ERNIE-ViLG — генератор изображений с открытым исходным кодом, разработанный китайским технологическим гигантом Baidu. Название нейросети расшифровывается как Enhanced Representation through Knowledge Integration — Vision Language Generation.

Несмотря на некоторую схожесть со Stable Diffusion, это разные нейросети. По крайней мере, если верить этому документу. Протестировать новый китайский инструмент можно здесь: ERNIE-ViLG Demo. Он бесплатен и ограничений на количество сгенерированных изображений мы не увидели. Хотя генерация изображений идёт не быстро — придётся запастись терпением.

Интерфейс довольно прост: перед вами простейшая форма для ввода текста, почти два десятка разных художественных стилей и кнопка генерации изображений. Внизу ещё есть подсказки — примеры популярных запросов.

Ещё важно помнить, что ERNIE разработан на китайском языке. Это означает, что английская фраза сначала переводится на китайский язык, и только потом начинается генерация изображений.

Некоторые сотрудники Cloud4Y вдоволь поигрались с популярными нейросетями, поэтому мы решили потестировать и новинку. Вот что у нас получилось.

Тестируем фантазию

Начать мы решили с запроса, который требует некоторой доли фантазии: A cat with glasses fights for a laptop with a robot. Все запросы мы составляли таким образом, чтобы они выглядели максимально примитивно — тогда их лучше понимает машина.

Вот такой вариант в стиле "Футуризм" сгенерировал ERNIE.

ERNIE-ViLG — бесплатная китайская нейросеть
ERNIE-ViLG — бесплатная китайская нейросеть

Как вы можете видеть, есть пара интересных вариантов, но в целом результат не впечатляет. Первый DALL-E выдавал нечто похожее.

Хорошо, подумали мы. А если взять не абстракцию, а нечто более конкретное? Например, Dracula is learning Python program code. Увы, здесь нас постигло горькое разочарование. Нейронка упорно не хотела показывать мало-мальски приличные варианты.

Вот что получилось

Графа Дракулу нейросеть не знает. Но что насчёт просто вампиров? Итак, vampire learns Python program code on a laptop.

Ну, тоже "не ах"

Кое-что вампирское здесь уже проглядывается, но всё равно результаты не впечатлили. Может, надо попросить нарисовать что-то ещё более известное? Давайте скормим ERNIE запросы айтишной направленности.

Облака, нейросети и Россия

Докер-контейнеры пробовали многие, так что мы решили начать с них. А чтобы увеличить шансы на успех, добавили ещё пару элементов. Kubernetes with blackjack and kittens.

Похоже, ERNIE из этого набора слов нравятся только котики

Совсем далеко от того, что нужно. Сделаем такой запрос: Docker container, photos with laptop and kittens. Котиков добавляли по той простой причине, что без них на выходе получалась совсем уж причудливая абстракция.

Что-то рядом, но не то

Давайте немного уточним запрос. Kubernetes container, photos with laptop and kittens. А ещё выберем мультяшный стиль.

Не, что-то контейнерное в этом есть

Да, с контейнерными технологиями Эрни не очень дружит. Интересно, нейросеть знакома с облачными технологиями? Проверяем: Russian cloud technology.

Некоторые изображения похожи на испорченные фотографии. И практически везде нам показывают собор Василия Блаженного. А если упростить ещё больше? Russian technology.

Вот такие вот технологии

Не совсем понятна логика машины, но ладно. Давайте без привязки к геополитике. Представим, что счастливый эльф купил видеокарту. Как его покажет ERNIE? Elf brings home a video card (cartoon).

Своеобразные эльфы, конечно

Мультяшные варианты пугают. А как насчёт реалистичного стиля? Будет хуже или лучше? Пробуем...

Elf brings home a video card (Realistic)

Не, верните всё как было. Получилось совсем уж странно. Похоже, китайкой нейросети ещё учиться и учиться, прежде чем она сможет показать результат, близкий к западным аналогам. Впрочем, китайцы быстро учатся.

Эксперименты с разными стилями

Пока что китайская нейросеть генерирует не самые удачные изображения. А что, если взять максимально простые вещи и нагенерировать их в нескольких популярных стилях? Возьмём, к пример, sun, flowers and children. Стиль — реалистичный

Реалистично?

А если это будет масляная живопись?

Попробуем добавить кукольности, режим Lolita

Результаты вполне неплохие. Если не вглядываться в то, что на них изображено, то платья можно назвать красивыми. Следующий стиль — cyberpunk.

Некоторые изображения определённо имеют право на существование, хотя и нуждаются в доработке. Но мы не будем останавливаться, продолжаем эксперименты: Baroque.

Стиль определённо прослеживается. А вот реалистичность — нет. Давайте тогда совсем оторвёмся от реальности и протестируем аниме-стиль.

Как и у многих других изображений, сгенерированных нейросетью, здесь видны проблемы с конечностями, глазами, позами. Хотя и определённая красота имеется. Так что ERNIE вполне себе интересный инструмент для баловства и экспериментов.

Ещё немного картинок

ERNIE доступен через API

Следуйте инструкциям в руководстве GitHub, если захочется попробовать API (но не забывайте, это китайская нейросеть, поэтому многие инструкции тоже на китайском).

Показывайте, что интересного получилось у вас!

1313
9 комментариев

Комментарий недоступен

3
Ответить

Можно, но только один раз

5
Ответить

Да, но результат скучный

2
Ответить

Комментарий недоступен

3
Ответить

Комментарий недоступен

2
Ответить

Комментарий недоступен

Ответить