Новая нейросеть которая генерирует звуки окружения. Работа саунд дизайнеров должна стать проще

Нейросеть TANGO (ссылка на Github), умеет генерировать пенье птиц, шум толпы, апплодисменты, звуки природы и так далее.

Пример грома и аплодисментов:

TANGO обучен на небольшом наборе данных AudioCaps, поэтому он может не генерировать хорошие аудиообразцы, связанные с понятиями, которые он не видел в обучении (например, пение). Из-за этой же причины TANGO не всегда может тонко управлять своими генерациями по текстовым подсказкам. Например, очень похожи поколения для подсказок Рубка помидоров на деревянном столе и Резка картошки на металлическом столе. Нарезание овощей на столе также производит аналогичные звуковые сэмплы.

Но на гитхабе есть инструкция как натренировать нейросеть на своём дата сете. Так что если у вас завалялось несколько сотен или тысяч размеченных аудиофайлов они могут сослужить вам службу) Ну или ждем когда сообщество сделает всю работу 😐

Нейроновости - новости обо всем что касается нейронок. Midjourney, Stable Diffusion, ChatGPT и о тех о которых вы могли не слышать.

Мой канал с гайдами по SD. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.