NVIDIA разработала модель, которая по одному запросу создаёт минутные ролики со «сложными историями»

Для демонстрации исследователи обучили ИИ на мультфильмах «Том и Джерри» и сгенерировал�� новые «серии».

Отрывок из генерации нейросети. Источник: TTT-MLP

Исследователи из NVIDIA и Стэнфордского университета совместно разработали модель Test-Time Training (TTT) и выложили её исходный код.
Метод позволяет «по одному запросу» создавать видео длиной в минуту, которые «рассказывают сложные истории». Чтобы продемонстрировать работу нейросети, они обучили ИИ на 50 часах мультфильмов «Том и Джерри», а затем создали новые ролики. Для них модели давали многостраничные описания сюжета.

Выжимка из запроса: Том приезжает в офис в Нью-Йорке. Джерри перегрызает кабель его компьютера. Том гонится за ним, врезается в стену, а Джерри прячется. Том врывается в кабинет, прерывая совещание, которое ведёт бульдог Спайк. Источник: TTT-MLP

Разработчик Каран Далал подчеркнул, что результаты не редактировали, все примеры сгенерировали с одного раза.

Выжимка из запроса: Джерри ест сыр, Том отбирает его и дразнит мышонка. Джерри собирает вещи и уходит из дома.Том грустит и идёт по его следам до Сан-Франциско. При встрече он даёт мышонку сыр в качестве извинения. Источник: TTT-MLP

Исследователи отмечают, что в видео всё ещё есть ошибки и искажения, но для роликов использовалась модель «всего» на 5 млрд параметров. Когда у команды будет больше ресурсов, она выпустит модель генерации более длинных и последовательных видео.
В комментариях под постом разработчиков некоторые отметили, что в оригинальных мультфильмах были «потрясающие характеры, юмор и повествование», а генерации этой планке не соответствуют. Другие назвали проект «будущим анимации».

#nvidia #нейросети #ии #новости