NVIDIA представила нейросеть для создания видео по описанию — пиво и животные получаются лучше всего
Она позволяет генерировать небольшие, но довольно детализированные клипы.
- Компания показала возможности технологии VideoLDM в рамках конференции IEEE по компьютерному зрению и распознаванию образов.
- Усовершенствованная нейросеть NVIDIA позволяет создавать ролики продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов вроде «собака плывёт», так и на базе более сложных, например, «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».
- Нейросеть учитывает около 4,1 миллиарда параметров, 2,7 миллиарда из которых обучились на видео.
- В NVIDIA сообщили, что добились заметного прогресса в обучении нейросети, которая всего за месяц стала генерировать гораздо более детализированные и соответствующие описанию видео.
- Нейросеть NVIDIA пока недоступна в открытом доступе. Компания опубликовала несколько примеров её работы на своём сайте.
Примеры работы нейросети
200 комментариев