Как оживить цифровое искусство? Создаём дипфейк и синтезируем речь с помощью Wunjo AI
Привет, DTF! Я бы хотел рассказать о своем open-source проекте Wunjo AI с открытым исходным кодом, который позволит вам из фото или нейро-искусственно сгенерированных изображения создавать дипфейк видео и синтезировать речь из текста, без каких либо ограничений контента, длительности, водяных знаков, при том, что все это бесплатно и на русском.
Бесплатно, потому что приложение запускается у вас на компьютере, и не требуется задействовать и оплачивать сервер.
В этом посте я постараюсь познакомить вас с возможностями Wunjo AI и пригласить вас в поддержать проект на GitHub.
Теперь изображения сгенерированные нейронными сетями вы сможете оживить и заставить говорить.
Возможности
Синтез речи из текста: С помощью Wunjo AI вы можете преобразовать письменный текст в убедительную речь. Независимо от того, являетесь ли вы контент-создателем, рассказчиком или разрабатываете специализированные решения, передовые методы обработки естественного языка (NLP) позволят вам создавать реалистичные аудиофайлы из текста. У вас есть доступ к трем моделям - женскому, мужскому и роботизированному голосу на русском языке. Вы можете контролировать ударения знаком +. Также есть возможность добавления ваших собственных моделей Tacatron2 для голосов и использования фонемного формата русского или английского языка, такие модели можно найти в интернете, в свободном доступе в основном на английском, например голос Кратоса, Моргана Фримена, итд. Вы также можете создавать диалоги между различными персонажами с использование ChatGPT. Достаточно подключить расширение OpenAI. Как это работает, я рассказываю подробно в этой статье.
Создание дипфейковых видео: Превратите статичные изображения в динамичные видеоролики, плавно передавая мимику и жесты различных персонажей. Вы можете контролировать движения и повороты головы. Если вы используете расширение, то даже сможете генерировать изображения для #дипфейк #видео с помощью Dall-e 2. Главное, чтобы на изображении были явно видны глаза и рот, чтобы придать им жизнь. Дополнительно, готово, но еще не опубликовано, расширение, которое позволяет вам брать готовое видео, и накладывать на него свою речь, при этом дипфейк синхронизирует #речь и лицо, смотрите пример на видео и добавляет большей плавности в сравнении с основным дипфейк методом. Как работает основной дипфейк метод, я рассказываю подробно в этой статье.
Расширения: Приложение поддерживает создание собственных расширений для #расширения функциональности. Например, есть расширения, позволяющие взаимодействовать с консолью, использовать GPU, обучать модели на вашем голосе или работать с ChatGPT. Список доступных расширений предоставлен в приложении. Процесс разработки расширений вдохновлен проектом AUTOMATIC1111. Как это работает, я рассказываю подробно в этой статье.
Картинки всегда хорошо, однако посмотрим как выглядит приложение работает на видео:
Как начать?
Вы можете установить готовый проект на Linux, MacOS или Windows.
В будущем я буду выкладывать больше видео, чтобы познакомить вас со всеми особенностями приложения, таким как оцифровать свой голос или контролировать дипфейк на своём YouTube канале.
Также, если вам интересно узнать о том, как проект работает, следите за новостями на Хабре, я буду об этом там писать и присоединяйтесь к обсуждению проекта в этой статье.