Как пять нейросетей заменяют целую студию людей

Эту историю для моего блога рассказал Александр Шаляпин, журналист и медиа-дженералист.

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания.

Идея использовать нейросети для создания клипа показалась идеальной: это одновременно демонстрировало новые технологии и решало творческую задачу.

Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

Технологический стек проекта

  • Claude — для написания текста песни
  • ChatGPT — для генерации промптов
  • Suno — для создания музыки
  • Flux — для генерации фотореалистичных изображений
  • Runway (включая Act 1) — для преобразования изображений в видео с эмоциями
  • Minimax — для сцен разрушения офиса
  • After Effects — для цветокоррекции и монтажа

Работа над текстом и музыкой

Я начал с создания текста будущей песни. Для этого выбрал Claude, который лучше работает с русским языком и поэтикой. Российские нейросети (Яндекс, Сбер) оказались пока не на том уровне качества, который мне требовался.

Claude сгенерировал базовый текст, но результат требовал доработки. Нейросети часто выдают «ванильный» результат — достаточно посредственный, но приемлемый. Я вручную отредактировал текст, улучшил рифмы и смысловую нагрузку.

Получил такой результат:

[ Куплет 1 ] Серый офис, тусклый свет. Кофе стынет, сил больше нет. Цифры, графики, отчет. Время медленно идет. [ Припев ] Выгорание — тотальный стресс. Где мечта? Где интерес? Каждый день как вечный круг. Выдыхаюсь я, мой друг! [ Куплет 2 ] Почта битком, дедлайн горит. Начальник снова в уши ссыт. Усталость в теле, внутри — пустота. Все тише шаг, и дальше — мечта. [ Припев ] [ Куплет 3 ] Каждый день здесь как война. Я не успеваю делать нихрена. Офисное кресло — мой вечный трон. Мой титул — офисный планктон. [ Припев ] [ Куплет 4 ] Может завтра изменится что-то вдруг. Может я найду спасательный круг. Вырвусь я из офисных оков. Начну дышать свободно средь новых берегов. [ Припев ]

После текста взялся за музыку в Suno. Процесс оказался удивительно быстрым — перебрал около 10 вариантов с различными доработками промтов. В некоторых случаях Suno неправильно ставит ударения в словах, но мне повезло избежать этой проблемы. Если бы она возникла, пришлось бы использовать «костыли» — разбивать проблемные слова на части с помощью пробелов или других символов, пока нейросеть не распознает их правильно.

Как я получал фотореалистичные кадры

Следующим шагом стало создание кадров-основ для будущего видео. Здесь я использовал Flux вместо более популярного Midjourney. Выбор был обусловлен тем, что мне требовалась максимальная фотореалистичность, а Midjourney, несмотря на все настройки фотореализма, всё равно привносит художественные элементы.

Flux работает локально на моем компьютере с видеокартой RTX 3090, и научен преимущественно на фотографиях, что давало нужный реалистичный результат. Я сгенерировал множество изображений, основываясь на сценарии, который постепенно складывался в голове.

Чтобы получить хорошее изображение, для Flux нужен детализированный промт. Пишем не только содержание сцены, но и технические детали съемки: композицию, освещение, глубину резкости и цветовую гамму.

Например, так можно получить изображение девушки с гитарой:

A cinematic mid-body shot in a dimly lit, empty office at night, filled with a cold and desolate atmosphere. The composition is carefully balanced, with the subject positioned slightly off-center. The color grading follows a desaturated, cool-toned palette with subtle blue and green hues, emphasizing the sterile, lifeless corporate environment. The depth of field is moderate, keeping the woman and the guitar in sharp focus while allowing the background to fade into a soft blur. The lighting is moody and directional, with the primary source being a lone desk lamp that casts a focused glow on the subject, creating deep shadows that accentuate the solitude and stillness of the moment. The shot is captured from a slightly low angle, reinforcing a sense of introspection and quiet rebellion. The image has a cinematic grain and a slightly underexposed look, adding to the atmospheric depth. Amidst the vacant desks and muted grey walls, a beautiful young woman sits on an office chair, her posture relaxed yet purposeful as she focuses intently on the sleek black electric guitar in her hands. Her head is tilted down, eyes tracing the movement of her fingers along the fretboard. She wears a crisp white shirt with the sleeves slightly rolled up, a loosened tie, a short skirt, and polished shoes—an intentional contrast against the rigid formality of her surroundings. The soft glow of the lamp highlights the curves of the guitar and the sharp angles of her attire, while the rest of the room dissolves into shadow, amplifying the sense of isolation and quiet defiance.

Перевод:

Кинематографическая съемка в середине тела в тускло освещенном, пустом офисе ночью, наполненном холодной и пустынной атмосферой. Композиция тщательно сбалансирована, объект съемки расположен немного не по центру. Цветокоррекция выполнена в ненасыщенной, холодной тональной палитре с едва заметными синими и зелеными оттенками, подчеркивающими стерильность и безжизненность корпоративной среды. Глубина резкости умеренная, женщина и гитара находятся в резком фокусе, а фон размыт до мягкости. Освещение - угрюмое и направленное, основной источник - одинокая настольная лампа, которая отбрасывает на объект сфокусированный свет, создавая глубокие тени, подчеркивающие одиночество и неподвижность момента. Кадр снят под небольшим углом, что усиливает ощущение самоанализа и тихого бунтарства. Изображение имеет кинематографическую зернистость и слегка недоэкспонировано, что придает ему атмосферную глубину. Среди пустых столов и приглушенных серых стен на офисном стуле сидит красивая молодая женщина, ее поза расслабленная, но целеустремленная, она сосредоточенно смотрит на гладкую черную электрогитару в своих руках. Ее голова наклонена вниз, а глаза следят за движением пальцев по грифельной доске. На ней чистая белая рубашка со слегка закатанными рукавами, ослабленный галстук, короткая юбка и начищенные туфли - намеренный контраст со строгой формальностью ее окружения. Мягкий свет лампы подчеркивает изгибы гитары и острые углы ее наряда, в то время как остальная часть комнаты растворяется в тени, усиливая ощущение изолированности и тихого неповиновения.

Результат:

Как пять нейросетей заменяют целую студию людей

А так получаем мужчину на фоне горящего офиса:

A cinematic mid-body shot of a man in a sharp yet slightly disheveled business suit standing confidently in the foreground, hands casually tucked into his pockets. The framing is tight, emphasizing his dominant presence against the backdrop of destruction. His expression is a controlled blend of calm satisfaction and subtle menace, his gaze unwavering as he observes the chaos behind him. The shot is captured from a slightly low angle, reinforcing his authority and detachment from the scene. Behind him, a massive office building is consumed by roaring flames, the fire illuminating the night sky with a dramatic, ominous orange glow. Embers drift through the air, creating a dynamic contrast between movement and his stillness. The color grading is a mix of deep, inky shadows and the intense warmth of the fire, with a cinematic balance between highlights and darkness. The depth of field is moderate—sharp focus on the man, while the inferno behind him blurs slightly, enhancing its surreal, apocalyptic presence.The lighting is high-contrast, with the flickering flames casting long, shifting shadows across his face and suit. His slightly unkempt attire—a loosened tie, an open collar, a few wrinkles in the otherwise tailored fabric—hints at a long night leading to this moment. The composition follows the rule of thirds, placing him slightly off-center to heighten the tension between his controlled demeanor and the unrestrained destruction behind him. The scene is immersive, with a fine cinematic grain adding texture, enhancing the raw, visceral atmosphere of power, detachment, and chaos.

Перевод:

Кинематографический кадр с изображением мужчины в строгом, но слегка растрепанном деловом костюме, уверенно стоящего на переднем плане, с руками, небрежно засунутыми в карманы. Кадрирование жесткое, подчеркивающее его доминирующее присутствие на фоне разрушений. Выражение его лица представляет собой контролируемую смесь спокойного удовлетворения и едва уловимой угрозы, взгляд непоколебим, когда он наблюдает за хаосом позади себя. Кадр снят с небольшого ракурса, что подчеркивает его авторитет и отстраненность от происходящего. Позади него массивное офисное здание охвачено ревущим пламенем, огонь освещает ночное небо драматическим, зловещим оранжевым свечением. В воздухе летают угольки, создавая динамичный контраст между движением и неподвижностью. Цветопередача представляет собой сочетание глубоких, чернильных теней и интенсивного тепла огня, с кинематографическим балансом между бликами и темнотой. Глубина резкости средняя - резкий фокус на мужчине, в то время как инферно позади него слегка размыто, что усиливает его сюрреалистическое, апокалиптическое присутствие. Освещение высококонтрастное, мерцающее пламя отбрасывает длинные, смещающиеся тени на его лицо и костюм. Его слегка неопрятный наряд - ослабленный галстук, расстегнутый воротник, несколько складок на ткани - намекает на долгую ночь, приведшую к этому моменту. В композиции соблюдено правило третей, он расположен немного не по центру, чтобы усилить напряжение между его контролируемым поведением и безудержным разрушением позади него. Сцена захватывает, а мелкое кинематографическое зерно добавляет текстуру, усиливая сырую, вязкую атмосферу власти, отстраненности и хаоса.

Результат:

Как пять нейросетей заменяют целую студию людей

Любопытный момент: в клипе присутствует персонаж, немного похожий на меня. Это не случайность — я использовал LoRA, натренированную на моих фотографиях, с уровнем воздействия 0,7 (70%).

Сделал это скорее для забавы, чтобы посмотреть, как бы я выглядел в офисном сеттинге. 
Сделал это скорее для забавы, чтобы посмотреть, как бы я выглядел в офисном сеттинге. 

Для создания персонажа, похожего на меня, я использовал технологию LoRA (Low-rank adaptation), натренированную на собственных фотографиях. Процесс обучения модели занял около 2 часов на видеокарте RTX 3090.

Тренировка проходила с помощью FluxGym. Для качественного результата я отобрал 15 своих фотографий с разными ракурсами, позами и выражениями лица. Снимки загрузил в FluxGym, где система автоматически создала описания с помощью встроенной функции "Add AI captions".

Модель тренировалась на базе flux-dev с настройками по умолчанию. После завершения процесса я использовал полученный файл .safetensors в Forge, задавая вес воздействия LoRA на уровне 0,7 (70%). Это позволило создать персонажа с узнаваемыми чертами, но не точную копию — идеальный баланс для художественных целей клипа.

При более высоких значениях весов (0,9-1,3) сходство становилось слишком очевидным, а при меньших (0,3-0,5) — терялось среди других визуальных элементов. Эксперименты с разными значениями помогли найти оптимальный баланс между узнаваемостью и художественным замыслом.

Что потребуется для создания своей LoRA

  • Компьютер с видеокартой от 12 Гб VRAM
  • 10-20 фотографий вашего лица в разных ракурсах и с разными выражениями
  • ПО: Pinokio, Forge и FluxGym

Как сделать

  • Установить Pinokio, скачать через него Forge и FluxGym
  • Запустить FluxGym, ввести название модели и триггер-слово
  • Загрузить фотографии и запустить тренировку кнопкой "Start Training"
  • Скопировать готовый файл .safetensors в папку models\Lora вашего Forge
  • В Forge добавить свою LoRA и триггер-слово в промпт

Оживление картинок и борьба с глюками

Превращение статичных изображений в видео оказалось самым трудоемким этапом. Работа строилась по принципу «картинка в видео» — подаёшь на вход изображение, и нейросеть его «оживляет». Это дает больше контроля, чем прямая генерация из текста.

Для видеогенерации я выбрал подписку Runway за 12 тысяч рублей в месяц с безлимитными генерациями. Ограниченные тарифы с видеогенераторами бесполезны — они пожирают кредиты с ужасающей скоростью из-за многочисленных перегенераций.

Здесь начались настоящие сложности. Нейросети часто галлюцинировали: персонажи с тремя руками, музыканты с лишними пальцами, парящие в воздухе части тел. На фоне офиса появлялись отдельные головы или руки, которые никому не принадлежали. 

В среднем каждый 10-секундный фрагмент требовал около 5 перегенераций, чтобы получить приемлемый результат без явных глюков. Иногда приходилось менять исходное изображение или промпты.

Для автоматизации создания промптов я использовал ChatGPT. Загрузил туда гайды от Runway, Minimax и Kling по составлению эффективных промптов, и просил сгенерировать подробные описания для каждой сцены. ChatGPT справлялся отлично, это сэкономило много времени.

Сцена с разгневанным боссом:

A grim office with grey walls, flickering fluorescent lights, and cluttered desks. The furious boss, in a wrinkled suit, leans over an employee, yelling with a document in hand, veins bulging. The employee shrinks in their chair, avoiding eye contact, while coworkers nervously peek over cubicle walls, the tension palpable in the air.

Перевод:

Мрачный офис с серыми стенами, мерцающими флуоресцентными лампами и захламленными столами. Разъяренный босс в помятом костюме склонился над сотрудником, кричит, держа в руках документ, вены вздуваются. Сотрудник съеживается в кресле, избегая смотреть в глаза, а коллеги нервно выглядывают из-за стен кабинок, в воздухе чувствуется напряжение.

Результат:

Как я заставил персонажей «петь» с эмоциями

Особенностью клипа стал качественный липсинк — совпадение движения губ персонажей с текстом песни. Вместо использования специализированных сервисов липсинка, которые часто создают «деревянные» лица без эмоций, я применил интересное решение.

Я задействовал новую на тот момент функцию Runway под названием Act 1. Она позволяет загрузить видеореференс с эмоциями, которые затем переносятся на сгенерированное изображение.

Процесс был прост, но трудоемок: я записал себя на камеру, проговаривая и «проигрывая» текст песни с нужными эмоциями. Затем разбил эту запись на 10-секундные фрагменты (максимум для Act 1) и загрузил их как референсы для каждой сцены с поющими персонажами.

Это заняло время, но результат того стоил — персонажи ожили, выражали настоящие эмоции, сжимали глаза, наклоняли головы, показывая «боль и отчаяние своего положения». 

Сцены разрушения и цензура

Интересная проблема возникла при создании финальных сцен, где офис должен был затопиться водой и сгореть — метафора мечты главного героя об избавлении от офисной рутины.

Большинство нейросетей отказывались генерировать сцены разрушения, похоже, из соображений цензуры. Только китайский Minimax позволил реализовать задуманное — затопить и поджечь офис.

Видимо, их цензура направлена на другие аспекты, не включающие разрушение имущества. 

А так получил потоп:

A dull, grey office with flickering fluorescent lights and cluttered desks suddenly transforms into chaos as a tidal wave of coffee bursts through the walls, flooding the space. The dark liquid cascades like in a scene from The Shining, sweeping over desks, papers, and panicked employees. Coffee mugs topple, monitors spark, and the once-stifling office is drowned in a surreal, caffeinated deluge, as everyone scrambles to escape the overwhelming flood.

Перевод:

Скучный серый офис с мерцающими флуоресцентными лампами и захламленными столами внезапно превращается в хаос, когда приливная волна кофе прорывается сквозь стены, заливая пространство. Темная жидкость льется каскадом, как в сцене из фильма «Сияние», захлестывая столы, бумаги и запаниковавших сотрудников. Кружки с кофе опрокидываются, мониторы искрят, и некогда тихий офис тонет в сюрреалистическом потоке кофеина, когда все пытаются спастись от непреодолимого потока.

Результат:

Финальная доводка и монтаж

Финальный этап включал работу в After Effects. Я использовал его для цветокоррекции, чтобы привести все кадры к единому тональному балансу, и для монтажа.

Важный момент: все движения камеры (повороты, зумы) я добавлял уже в After Effects, а не на этапе генерации. Это давало гибкость при монтаже — я выбирал, какое движение лучше подойдет для конкретного перехода между сценами, уже видя общую картину.

Итоги проекта

Весь проект в неспешном темпе (около 4 часов работы в день) занял полторы недели. Если сравнивать с традиционными методами съемки, это невероятно быстро — подобный проект занял бы не меньше месяца.

Главной технической задачей было сделать клип, который выглядел бы как обычный стандартный музыкальный видеоролик, а не как экспериментальное «нейросетевое искусство». Для этого я поддерживал единый визуальный стиль, цвета и характеристики персонажей на протяжении всего видео.

К моему удивлению, работа даже попала в шортлист конкурса, хотя я работал один, а не командой как многие другие участники.

Работа с нейросетями — это постоянный баланс между автоматизацией и ручной доводкой. Даже с новыми инструментами хорошее видео требует человеческого глаза и мастерства. Но скорость и доступность поражают — раньше такой клип требовал команду и большие деньги, теперь его можно сделать одному за приемлемую сумму.

Я веду блог «Сегодня без ИИ, а завтра без работы». Готовый клип выложили там. Подпишись, чтобы не пропускать новые выпуски!

23
9
1
1
14 комментариев