Генерации музыки через удобный интерфейс CoffeeVampir3

На днях один из подписчиков (Aamir Khan) поделился webui для генерации музыки и я вчера радостно на весь день залип.

Это тоже MusicGen, о котором я писал ранее:

Но в вариантах расшаренных до этого в основном использовался Hugging Face, вкладка с которым, как выяснилось опытным путём, после нескольких генераций начинает дико нагружать проц.

Интерфейс от CoffeeVampir3 намного ловчей:

  • Работает локально
  • Модели всех размеров (small, medium, large) подгружаются сами при первом использовании
  • Можно ставить треки в очередь
  • Можно генерить на основе своей мелодии
  • Справа можно послушать, что сгенерил
  • Нагружается только видюха, а не проц

Чем больше модель, тем лучше качество звучания, но тем и требовательней она к железу и генерация может занять больше времени.

Установка:

1) Создаём папку на компе и в адресной строке (C:\MusicGen или где вы её сделали) пишем cmd

2) В открытой командной строке пишем git clone https://github.com/CoffeeVampir3/audiocraft-webui.git чтобы скопировать webui к нам на комп

3) Идём вглубь скопированного webui командой cd audiocraft-webui

4) Далее устанавливаем необходимые для webui вещи командой pip install -r requirements.txt

Генерации музыки через удобный интерфейс CoffeeVampir3

Готово — запускаем проект командой python webui.py (не обращаете внимание на ошибку про тритон, фласк и дебаг мод). Веб интерфейс открывается по адресу http://127.0.0.1:5000/

Чтобы генерить на основе своего трека в Model выберите Melody и укажите путь к треку.

Генерации музыки через удобный интерфейс CoffeeVampir3

За что отвечают параметры (спасибо Dmitry за подсказку):

  • Top-k - сколько токенов используется. Больше - больше разнообразных звуков будет в треке, но больше какофония. Меньше - более повторяющимся и однородным будет трек.
  • Тоp-P - альтернативный метод, 0 - выключен.
  • Duration: длительность генерируемой музыки.
  • Temperature - более\менее активное фантазирование. По опыту изменения в обе стороны от дефолта делают хуже.
  • Classifier Free Guidance - тоже в обе стороны от дефолта хуже получалось. Типа строгость следования промту, как в стейбле для картинок.
  • Segments - количество генерируемых сегментов. Каждый сегмент будет иметь длину равную duration минус overlap. Поэтому если duration стоит 30 секунд, а overlap - 5 секунд, то при использовании 3 сегментов вы получите 75 секунд аудио.
  • Overlap - перекрытие между сегментами. Больше перекрытие = более структурированная музыка между каждым из них.

Музыка сохраняется в папку statc/audio/ , либо вы можете её правым кликом в webui сохранить куда вам угодно.

Важно отметить, что лицензия софта не позволяет использовать сгенерированное в коммерческих целях. Вот только как они будут определять, что сгенерировано, а что нет, если оно создано локально?

В общем, для создания полноценных треков оно пока не годится, а вот семплы пилить, вполне себе. Да тут нет гибкости и их надо мастерить, но это уже ускорение процессов для артистов и существенное снижение планки входа для тех, кто только начинает.

Больше интересностей у меня в телеге:

4
1 комментарий

Сведением кто бы из ИИ занялся, вот это было бы топ.