Что происходит, когда за девочек-волшебниц берутся нейросети?

MidJourney:<i> Madoka and Homura holding hands</i>
MidJourney: Madoka and Homura holding hands

Нейросети осваивают новые сферы деятельности человека, и интересным становится вопрос: где проходит граница возможностей технологии, обоснованная особенностями самой технологии?

Меня заинтересовал специфический вопрос: на чем обучали MidJourney (приложение для генерации картин по описанию по типу нейросети DALL-E от OpenAI) и где временная граница его "понимания" популярной культуры на сентябрь 2022 года. Проверять я решила, генерируя изображения девочек-волшебниц — а на чем еще проводить тесты?

1. По-видимому, если написать в запросе magical girl, нейросеть не воспринимает запрос как семантическое целое: для нейросети важен концепт (1) magical и второй концепт — (2) girl, значения которых он объединяет и синтезирует изображение, в которых девушки выглядят по-волшебному. Конкретный термин 'magical girl' в значении специфичного жанра не первичен. Тем интереснее, что в Midjourney представлена попытка снятия биаса (предвзятых представлений нейросети, полученных из обучающей выборки: если 90% девочек на рисунках белокожие, то нейросеть будет генерировать девочек белокожими): в простом неспецифичном запросе (girl) генерируются иллюстрации как девочек с белой кожей, так и с более темными оттенками.

Также любопытно то, какими нейросеть представляет девочек-волшебниц. Преимущественно мы видим более европейскую форму a la Hogwarts, но рубашечность, рюшечность и сэйлорфукушность японских форм тоже проскальзывает.

Очевидно, нейросеть была обучена преимущественно на европейских иллюстрациях, поэтому по дефолту стилистика более объемная и менее графичная.

2. На запрос Madoka and Homura holding hands (Мадока и Хомура — имена главных героинь анимэ Puella Magi ☆ Madoka Magica) нейросеть генерирует изображения двух девушек, по своему облику вполне относящихся к жанру magical girls. То есть, в английском языке за этими именами закреплена семантика волшебности. Так-то это обычные японские имена, и Мадока вполне могла быть по фамилии Куросава.

В генерируемых рисунках сохраняется и атрибутика одежды mahou shoujo из сериала — платья, рубашки, ленты, цветы напоминают по расположению дизайны девочек-волшебниц. Тем интереснее иллюстрация, которую я вынесла первой в запись, которая случайным образом репрезентировала происходящее в сериале — на груди Хомуры расцвело кровавое пятно.

MidJourney склонен к тому, чтобы смешивать волосы заданных описанием героев, поэтому почти во всех иллюстрациях розовые волосы Мадоки превратились в цветы над головами обеих девочек. Но в первой иллюстрации розовость все же сохранилась, можно разглядеть специфичную форму прически.

3. А вот о виртуальных ютьюберах MidJourney ничего не знает. Видимо, граница датасета, на котором его обучали, крутится вокруг 2020-го. Поэтому симпатичный дизайн для нового таланта не сгенерируешь, нейросеть не знает значения этого слова.

Протестировать MidJourney можно в официальном дискорд-боте. Каждому пользователю дается 25 бесплатных запросов. Подсмотреть примеры промптов (запросов) можно у пользователей, которые генерируют иллюстрации вместе с вами — чаще всего через запятую будут полезные теги, которые позволят использовать ваши бесплатные запросы на максимум в нескольких стилистиках. Доступна стилистика некоторых классических (диджитал)-художников (Миядзаки, Отомо и т.д., если говорить о японской стороне). Также можно использовать один из ресурсов для автоматической генерации лучшего промпта, например, Stable Diffusion prompt generator от Tune the model.

Моё исследование было вдохновлено работами художницы SUNSETAGAIN по фандому Detroit: become human. Художница добавляет в свои рисунки сгенерированные MidJourney элементы.

Работа SUNSETAGAIN
Работа SUNSETAGAIN

Наверняка вы слышали о скандале, когда на художественном конкурсе первое место заняла работа, сгенерированная MidJourney.

Выигравший конкурс Джейсон Аллен говорит о будущем, в котором машинно-генерируемое искусство станет одним из жанров искусства в принципе. Конечно, в машинной генерации есть своя наука, посмотреть на параметры нейросети можно в FAQе.

Такие примеры (в частности, пример SUNSETAGAIN) наводят на мысли о потенциальном использовании технологии — оно многоплановое. Оно может не только "подменять" человеческий труд, но идти вместе с ним рука об руку. Например, заказчик сможет сгенерировать несколько примеров для художника, чтобы лучше показать, что он хочет получить.

В контексте машинно генерируемого искусства мы с коллегой пошутили над представлениями о машинном искусстве из истории Дэвида Кейджа.

what actually happened in the studio... (<a href="https://api.dtf.ru/v2.8/redirect?to=https%3A%2F%2Fsunsetagain.tumblr.com%2Fpost%2F694814888161411072%2Fcollaboration-with-midjourney&postId=1351340" rel="nofollow noreferrer noopener" target="_blank">иллюстрация</a> SUNSETAGAIN c использованием MidJourney)
what actually happened in the studio... (иллюстрация SUNSETAGAIN c использованием MidJourney)

Присылайте ваши наблюдения!

Запрос <i>Connor blushing</i> в генерации от jashonja
Запрос Connor blushing в генерации от jashonja
1818
8 комментариев

Например, заказчик сможет сгенерировать несколько примеров для художника, чтобы лучше показать, что он хочет получить.

Скорее наоборот, художник будет генерировать что-то абстрактное, для референса, чтобы адаптировать в рисунок, как с сердцем из статьи. На хабре, была статья, когда чел, рисующий дизайн-картинки для автохолдинга пытался получить от нейросети аналог своей работы и сеть не могла сгенерить нужный ракурс, выражение лица, стиль и т.д.

Статья
https://habr.com/ru/post/684900/

3

Спасибо за статью! Я думаю, это может работать в обе стороны. Я описала свой пример, когда я заказывала художникам рисунки по своему описанию. Я думаю, что в первом приближении можно описать персонажа MidJourney или DALL-E и пользоваться таким нейросетевым "референсом" персонажа. Например, hazelnut eyes raven hair, moon on the backgroundитд, и в таком виде показать художнику наметки персонажа, чтобы художнику уже было на что ориентироваться. MidJourney-то можно условно бесплатно помучить и получить не совсем дрянной референс, а чтобы художник рисовал чужого персонажа исключительно со словесного описания — это уже дополнительные $$. Многие художники вообще со словесных описаний не рисуют. Так что мне кажется, что можно через нейросеть добиться приемлемой картинки и с таким наброском идти заказывать иллюстрацию.

С другой стороны, это действительно не отбирает работы художников и дизайнеров, как описано в статье, которую Вы приложили. Я думаю, что это новые возможности для синтеза)

2

Being meguca is suffering.

1

Сорри, если пост только наполовину исследование образов анимэ девочек-волшебниц в понимании нейросетей. Я не знала, какую категорию выбрать, и выбрала ту, к которой принадлежит puella magi madoka magica. Спасибо за прочтение~