Проведем эксперимент: Кто справится лучше с мошун-дизайном под конец этого года — человек или нейронные сети?

«Через 10 лет нам всем шибздец». Такой комментарий я встретил под своим предыдущим постом, когда пытался провести эксперимент: написать песню на русском и сделать видеоклип при помощи нейронных сетей. И я задумался: а что, если сравнить процесс создания моушн-дизайна человеком и нейронными сетями под конец этого года? Сколько времени это занимает, из каких этапов состоит процесс и какова стоимость? Может быть, не все так однозначно, или, наоборот, не нужно ждать целых 10 лет. Вы сможете увидеть результат созданной анимации человеком и искусственным интеллектом из одной и той же картинки, чтобы сделать выводы самостоятельно.

Зачем вообще мне нужна видео анимация? Как то одним прохладным зимним днем, мне пришла идея для моего проекта с открытым исходным кодом «Нейронное радио», ввести персонажа в стиле Lofi Girl, Chill Out и подобных других жанров, в жизни которого будут развиваться различные истории и олицетворять будни программиста. При каждом запуске сервиса жизнь персонажа будет меняться в зависимости от времени суток или сезона. И с такой большой целью, я принялся за дело. Дело, которое начал с поисков моушн-дизайнера, а потом уже и способов сделать результат быстрее и самостоятельно.

В предыдущей статье я кратко описывал процесс создания видео. Сейчас я хочу более подробно рассказать о нем. Например, вся анимация в этом плейлисте была создана с помощью нейронных сетей или в комбинации с видео редактором с открытым исходным кодом Kdenlive для монтажа видео. Не забудьте послушать музыкальные композиции с текстом и без него, чтобы оценить прогресс нейронных сетей в создании музыки. Но, вернемся к анимации.

Не секрет, что создание анимации (в случае использования нейронных сетей получается именно анимация, а не моушн-дизайн) начинается с общего изображения. Я создал изображения в Stable Diffusion 1.5, используя модель Ghibli для txt2img. Это важно, так как нам потребуется именно модель Ghibli в будущем, а не Lora. Однако, в качестве дополнения к основной модели, я использовал Lora для времен года, чтобы проще генерировать сезон для исходного изображения. В дальнейшем модель Lora использоваться не будет.

У нас есть исходное изображение, которое мы загружаем в Gen-2. В основном, мы не можем контролировать то, что именно анимирует Gen-2: движение головы, рук, окружения за окном или голову корги, если не упрощаем наш запрос до 2-5 слов. Тем не менее, при помощи инструмента Motion Brush мы можем контролировать движение камеры по разным осям, как я делал для этого видео.

Neural Heavy Metal

При первой регистрации количество кредитов будет достаточным для создания 1-2 видео в стиле Lofi Girl. Однако, не все так просто: если использовать Extend, анимация будет искажаться все больше и больше.

Последний кадр в первой анимация в 4 секунды

И, казалось бы, после первого Extend анимация становится браком! Но нет, у нас есть предфинальный этап, который помогает исправить ситуацию.

Зачем это нужно? Поскольку с каждой последующей генерацией Gen-2 анимация отдаляется от первоначального стиля, нам необходимо вернуть все кадры к общему стилю студии Ghibli. Для этого у нас есть модель, которая использовалась для генерации исходного изображения. Инструкции по использованию собственных моделей в Wunjo AI вы найдете в этой статье.

Мы добавляем исходный промпт, устанавливаем небольшой коэффициент изменений, чтобы каждый кадр соответствовал начальному изображению (это настраивается индивидуально для каждого видео). Задаем параметры: насколько новый кадр должен соответствовать описанию (от 7 до 15), и интервал, на котором берутся новые кадры для анимации (индивидуально от 10 до 40). Программа выбирает кадры с заданным интервалом, генерирует img2img, используя ControlNet, GMFlow, итд, подробно описано в этой статье. Затем, с помощью EbSynth и GMFlow, объединяются исходные кадры с новыми, чтобы они имели одинаковый, нужный нам стиль.

Заключительный штрих - объединение коротких видео, создание реверса для увеличения временного интервала и создания петли (loop). Посмотрим внимательно на результат.

Анимация нейронными сетями

Такие выводы я сделал конкретно в моем кейсе:

Достоинства

Быстро и бесплатно.
Новая анимация при каждом новом запуске.
Можно контролировать движение камеры.
Движение головы и объектов, недоступные для моушн-дизайнера.
Универсальность.

Недостатки

Нельзя в полной мере контролировать анимацию.
Анимируется не более 1-2 объектов за раз.
Пальцев лишних не бывает, но не в нашем случае.
Возможны искажения объектов и цвета, после чего анимация может быть неисправима.

На создание данной анимации у меня ушло 4 часа, причем 90% времени я провел, слушая музыкальные треки, в то время как анимация обрабатывалась в Gen-2 и Wunjo AI. Под универсальностью подхода я понимаю его применимость не только для создания анимированных персонажей, но и для видеофрагментов в различных стилях: от кинематографии до 3D. Например, музыкальный клип, созданный нейронными сетями.

Музыкальный клип нейронными сетями

Поскольку я не занимаюсь моушн-дизайной, я поделюсь с вами информацией, полученной от профессионала в данной области, которой занимался решением этого кейса.

Процесс работы над анимацией моушн-дизайнера начинается с подготовки иллюстрации к анимации, где используются программы Photoshop и Procreate. Основная цель этой части работы - создать фоновые элементы. Для этого происходит удаление персонажа из сцены, замена вида из окна и заполнение пустоты мест. Кроме того, для создания анимации участники изображения разбиваются на отдельные слои: собака вырезается на отдельный слой, а парень дробится на несколько частей - голова, волосы, глаза, рот, шея, тело, руки и кисти. Такой подход позволяет дальше анимировать каждый элемент более детально. Времени на этот этап моушн-дизайнер потратил 4 часа упорной работы без отрыва от экрана.

Далее, анимация переходит в программу After Effects, где начинается непосредственное создание анимации. Фон анимируется, включая эффекты, такие как падающий снег за окном, мерцающие лампочки на заднем фоне, отблески от монитора и свет от лампы, чтобы создать атмосферу и придать сцене живость.

Анимация собаки также детально прорабатывается: добавляются элементы дыхания, подрагивания ушей и лампы, что придает ей реалистичность и живой характер.

В процессе работы с персонажем проводится анимация различных частей его тела: моргание, движение волос, губ, тела, рук и кистей, что помогает создать естественные движения и живость в образе персонажа.

Таким образом, каждый элемент анимации тщательно прорабатывается и детализируется для достижения высокого уровня реализма и выразительности в итоговой анимированной сцене. И второй этап, это еще 4 часа упорной работы.

И, посмотрим на результат ручной работы.

Анимация моушн-дизайнером

Выводы, которые я сделал в этом кейсе:

Достоинства:

Моушн-дизайнер способен полностью контролировать анимацию объектов, учитывая при этом пожелания заказчика.
Возможность анимировать любое количество объектов одновременно без их искажения.
Отсутствие искажения цветов в процессе анимации.

Недостатки:

Хотя можно было бы сказать, что моушн-дизайнер работает быстро, однако, как и у других специалистов, у него имеется определенная загруженность заказами, поэтому финальный результат может потребовать несколько дней ожидания.
Уровень детализации и качество отрисовки анимации зависят от уровня навыков и качества исходного кадра, как, например, можно заметить по этим ручкам у Т-Рекса.
Ограничения возможности контроля движений камеры в полной мере, что может быть достигнуто при использовании нейронных сетей, способных дорисовывать фрагменты кадра.
Невозможность реализации сложных поворотов головы и движений объектов, так как это потребовало бы создания нового кадра объекта, а не только добавления движения к вырезанной части.

Любая работа должна оплачиваться. В данном случае, стоимость услуг составила 1500 рублей, что не подпадает ни под достоинства, ни под недостатки, а остается частью процесса выполнения заказа. При этом стоимость анимации, зависит от моушн-дизайнера: вы найдете предложения по 2500 рублей, и даже по 15000 рублей за одинаковый тайминг.

Мне понравилась глубокая проработка работы моушн-дизайнера. Однако, при выборе между моушн-дизайнером и использованием нейронных сетей, я бы задумался и уже сейчас принимал решение на основе конкретного кейса и сложности желаемого конечного результата. Например, насколько важно, чтобы объекты анимировались без искажений или были активны несколько объектов в кадре одновременно. Еще одним важным фактором является бюджет и время, которое я готов потратить на ожидание конечного результата.

В качестве обычного пользователя, я получил результат, не обладая специальными знаниями и навыками в области моушн-дизайна и видеоредактирования. В данной статье я обязательно оставлю ссылочки на моушн-дизайнера здесь и здесь, который выполнил свою часть работы, и оставлю за вами решение. Соответствует ли вашим ожиданиям анимация, созданная с использованием нейронных сетей? Может ли моушн-дизайнер успешно сочетать использование нейронных сетей для анимации с программами, которые он обычно использует, и приведет ли это к более интересным результатам? Ответы на эти вопросы могут иметь значительное значение для окончательного решения. И прийдем ли в итоге «нам всем шибздец»?

3 комментария

Владимир Журавель

26.12.2023

Я не согласен что человек сделал тут лучше. Да, нейронка выдала гору артефактов, но это все равно интереснее той беззубой реализации что безразличный к результату человек сделал. Пока нейронки делают точно хорошо одно - они дают идеи, месиво из отправных точек, а это очень даже немало. Артефакты будут уменьшаться, точность и скорость расти. Такие профессии как аниматор станут не важнее чем сейчас проявители пленок. Все завяжут все что делают на нейронки, так же как сейчас все завязали на компьютеры.

Ответить

Deep Bottom

Такие картинки должны анимировать аниматоры, а не моушен дизайнеры.

Моушен дизайнер фпс проебал, а так естественно сделал сильно лучше, тем более за шапку сухарей.

Аккаунт удален

Комментарий недоступен

Проведем эксперимент: Кто справится лучше с мошун-дизайном под конец этого года — человек или нейронные сети?

Начнем с нейронных сетей? Да!

И так, что имеем?

Моушн-дизайнер

И так, что имеем?

Мои собственные выводы