Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Добрый вечер, уважаемые энтузиасты нейрохрючева. В общем, потратил примерно сутки на то, чтобы завести text2video нейросеточку с очень китайским названием Hunyuan и решил запелить гайд для самых тупеньких (как я, собственно), чтобы не приходилось лопатить самые тёмные задворки всяких гитхабов, а просто тыкнуть несколько десятков кнопочек.
Очень бы сам такое хотел сутки назад.

Немного неровно  потому что 12 кадров в секунду. Зато длинное!

Дисклеймер: есть определённые требования к железу, хотя и не такие жёсткие, как в в основном пишут.У меня всё завелось на далеко не топовом конфиге из RTX3070, Ryzen 5600 и 16гб DDR4. Рекомендуют, конечно, исключительно 40/5090 карточки, возможно, правильно делают, НО У МЕНЯ ВСЁ РАБОТАЕТ.По идее, должно и на 3060 завестись, особенно если на 12гб.Также будьте готовы к тому, что гигов 60 жёсткого диска оно сожрёт.Собственно, немного о сабже: это некая китайская нейросетка с открытым кодом, которая очень сносно генерит всякое видео длиной примерно 2-3 секунды (можно больше, но ждать придётся совсем неприлично много времени).Есть, конечно, альтернативы в виде Runway и Sora, например, но у них есть несколько минусов: а) они облачные, соответственно, на них нельзя прикрутить никаких надстроек, они жёстко зацензурены и позволяют взаимодействовать с ними только при помощи промпта или входной картинки. Никакого кастома.б) Они хотят денег, и мало того, что это само по себе ВОПИЮЩАЯ ситуация, так ещё и карты Мир не принимают. Конечно, если хочется, то можно, но есть и альтернативные пути.

Здесь же у нас, напротив, все пути открыты, можно генерировать всё что душеньке угодно, с тонкими настройками, и ещё и бесплатно. Красота, но придётся маленько повозиться.
Собственно, об установке.

Тут есть некоторое количество противных шагов, которые довольно некомфортно делать, если ты не крутой айтишник, а привык возюкать мышкой в дружелюбный интерфейс какой-нибудь софтины (как я), но такова цена вышеописанных преимуществ, увы. А я тут постараюсь расписать всё так, чтобы можно было просто ходить по ссылкам и копировать всякое, сильно не углубляясь в подробности.

Этап 0

Нужно установить python. Делается это сильно проще всего остального - просто идём сюда

и выбираем какую-нибудь версию. Знающие люди яростно убеждают не качать самую последнюю, потому что обычно её ещё толком ничего не поддерживает из того что нам нужно, и баги не исправлены.
Лично у меня стоит 3.10, полёт нормальный.
Два момента:
1) На всякий случай при установке надо заглянуть в Custom Installation и проверить, стоят ли все галочки - особенно pip, это нам понадобится.
2) Галочка ADD Python to PATH тоже не повредит.
Готово, теперь вы программист, с вас три тысячи.

Этап 1

Качаем ComfyUI. Не дайте себя обмануть, Comfy здесь - тотальное враньё, это чудовище совершенно неинтуитивно и максимально не комфортно, но что имеем.Собственно, это пользовательский интерфейс, в котором мы будем вводить промпт с аниме-девочкой и нажимать "генерировать".

Тут нам нужна последняя ("latest") версия - потому что ну его на фиг эти беты и т.д. По сути, нам надо два вот этих вот файла, которые на самом деле один.

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Этап 1.5

В папке, в которой мы распаковали Comfy, есть папка ComfyUI (именно вот отдельная), нам в неё. Там нужно открыть командную строку. Например, нажав shift+ПКМ и выбрав там внезапное "открыть powershell". В 11 винде по обычной правой кнопке мыши предлагается открыть терминал, это нам тоже подходит.

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Дальше пишем:

pip install -r requirements.txt

и ждём, пока всё прокрутится.
Если командная строка ругается на тему "кто такой ваш пип", значит что-то пошло не так при установке питона - и можно попробовать его переустановить. Или ещё что-нибудь, не знаю.
Почти всё! Пробуем запустить run_nvidia_gpu.bat.
Нам нужно, чтобы командная строка пробежала горой всяких строк текста и открыла, собственно, комфик.
Открывается браузер, и там, собственно, некий интерфейс.
Вернее, куча ошибок о том, что чего-то не хватает, но это нам пока не интересно - главное, чтобы открылась вкладочка в браузере.
Иногда бывает баг, с которым я столкнулся - браузер открывается, а там ничего. Если так, то нужно вместо 127.0.0.1:8188 (или мб у вас как-то иначе будет) прописать localhost:8188, тогда всё ок должно быть. Челы на реддите ещё советовали открыть адрес в firefox, мб тоже поможет.

Этап 2

Дальше надо поставить ComfyUI Manager.
Это такая приблуда, которая сильно улучшает качество жизни, позволяя устанавливать нужные нам куски буквально по клику.
Тут всё относительно просто:

1) качаем и ставим это

2) заходим в папку ComfyUI/custom_nodes
3) пишем там это

git clone https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager

4) ждём немного.
Теперь можно открыть комфи ещё раз, скипнуть все сообщения об ошибках и посмотреть, есть ли у нас кнопка Manager сверху, вот такая

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Если есть - всё круто, и можно ставить, собственно, саму модель.

Этап 3

1) Качаем это.Вроде, понадобится регистрация, но без смс (простите).

Это сама моделька, ядро и сердце. Как скачается - надо будет запихать в \ComfyUI\models\unet
2) Идём сюда.

Здесь настоятельно рекомендую выбрать версию BASIC 16Gb версию (вкладки над картинками сверху) и остальные не трогать по крайней мере пока что, потому что если вы читаете этот гайд, то вы нифига не эксперт, а в остальных хрен разберёшься без ещё недели на всяких форумах. Хотя, возможно, это я тупой.
Но, в общем, я предупредил.
Это, собственно, наше рабочее окружение для нейросетки - по сути, пресет интерфейса, который какой-то добрый дядя собрал для таких как мы.

3) опционально: ищем на том же сайте Лоры. Тут я обойдусь без ссылок, потому что они бывают очень специфические.
Лора - это такая штука, которая "подтягивает" результат по какому-то аспекту. Например, подгоняет под какую-то стилистику, или делает очень реалистичные, красивые глаза.
Для заходим во вкладку Models и выставляем такие фильтры.

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Важно: после скачивания лоры надо пихать в \ComfyUI\models\loras\Hunyuan. Последнюю папку надо будет создать, без этого нифига не будет работать.

Этап 4

1) Запускаем комфи, скипаем ошибки.2) Берём файл HUN_BASIC_1.1.json (это тот, что рабочее окружение) и перетаскиваем его во вкладку с Комфи, прям вот драг-н-дроп, прогрессивно.Должны посыпаться ещё ошибки, их тоже скипаем пока что.После этого должно открыться какое-то такое полотно

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

3) Тыкаем в на кнопку Manager сверху, выбираем Install Missing Custom Nodes. После небольших раздумий он должен показать, чего нам не хватает для счастья (и работоспособной нейросетки).
Проходим по всем пунктам, везде нажимаем Install. Каждый раз менеджер заботливо будет предлагать перезапуститься, но это можно сделать один раз, когда всё будет готово.
А можно и каждый раз, по приколу, если хочется. Так дольше, но профессиональнее.
3.5) один из блоков менеджер всё равно почему-то не понимает. По крайней мере, у меня.
Чтобы его поставить, нужно зайти в папку \ComfyUI\custom_nodes и, опять таки, в консоли прописать такое:

git clone https://github.com/chengzeyi/Comfy-WaveSpeed.git

После этого перезапускаем Comfy, если ещё нет (важно не забыть закрыть прям терминал, иначе ругаться будет) и больше ошибок быть не должно.
Если они всё таки будут, то лучшее, что можно сделать, это скопировать название недостающего элемента в поисковую строку гугла и выкачать с гитхаба всё что предложат.

Этап 5

Почти всё.
Само рабочее пространство у нас поделено на три секции: text2video, image2video и video2video. Переключаться между ними можно вот тут

Нейросеть для генерации видео дома (бесплатно). Пошаговый гайд

Внутри секций - всякие блоки, где можно настроить, какой длины будет видео (FRAMES, количество кадров), разрешение и т.д., тут, в общем-то, настройки, с которыми можно играться.
В первый прогон лучше ничего не трогать, эксперименты на потом.
Дальше - идём в левую часть интерфейса, где написано Setup - Set and forget и потыкать стрелочки так, где написано хххх_name (или название_хххх, если интерфейс в окошке на русском).
Просто потыкать, этого должно быть достаточно. Если нужный элемент на месте, то выберется именно он. Если же нет - вылезет что-то типа "неопределено", на это пока забиваем.
Выбираем text2video (на красном окошке со скрина выше), вводим промпт, и нажимаем большую синюю кнопку внизу.
.....
Ага, опять ошибка.
Здесь всё довольно просто: нам пишут, чего у нас не хватает и в какой папке.
Пишем в гугл чего не хватает (если надпись "xxx is missing", то гуглим "xxx") - буквально первый результат приведёт нас на huggingface, ещё один весёлый сайт.
Здесь прям не думая переходим по ссылке и нажимаем на неприметную кнопку Download.
Скачанный файл кладём в папку, которая также прописана в ошибке.
Процедуру надо будет повторить раз пять, наверное.
После этого разбираемся с Лорами: если вы их качали и положили куда надо, они должны выбираться.
Если нет, то этот блок надо просто отключить сочетанием клавиш ctrl+B, иначе ничего не получится.
Прикол: сочетания клавиш оно понимает только на английской раскладке, имейте в виду.
И ВОТ ТЕПЕРЬ наконец-то можно генерить видео.
Генерация 2 секунд на 3070 в дефолтном разрешении занимает ну где-то минут наверное десять.
Чем больше выставлено шагов, тем, соответственно, дольше, но при этом результат, понятное дело, лучше.
По ощущениям выглядит это всё сильно лучше, чем ранний stable diffusion уже сейчас - например, с руками тут часто всё хорошо. Взаимодействия объектов скорее страдает, до этого мы ещё не доросли, но в целом это реально значительно лучше примерно всего, что было до этого (исключая, мб, Sora, но её я руками не трогал).
Всем спасибо кто дочитал, делитесь негативной оценкой нейросетей в комментариях, ставьте дизлайки!

(А ВООБЩЕ я пишу музыку и про музыку немного иногда, можно подписаться на телешку, если не сложно. Вот телешка. )

14
20
3
37 комментариев