NVIDIA представила нейросеть для создания видео по описанию — пиво и животные получаются лучше всего

Она позволяет генерировать небольшие, но довольно детализированные клипы.

  • Компания показала возможности технологии VideoLDM в рамках конференции IEEE по компьютерному зрению и распознаванию образов.
  • Усовершенствованная нейросеть NVIDIA позволяет создавать ролики продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и с частотой 24 fps. Алгоритмы генерируют видео на основе как простых текстовых запросов вроде «собака плывёт», так и на базе более сложных, например, «медведь в лесу играет на пианино, пригласив группу лесных зверей подпевать».
  • Нейросеть учитывает около 4,1 миллиарда параметров, 2,7 миллиарда из которых обучились на видео.
  • В NVIDIA сообщили, что добились заметного прогресса в обучении нейросети, которая всего за месяц стала генерировать гораздо более детализированные и соответствующие описанию видео.
  • Нейросеть NVIDIA пока недоступна в открытом доступе. Компания опубликовала несколько примеров её работы на своём сайте.

Примеры работы нейросети

317
200 комментариев