Новая эра видеогенерации: Step-Video-T2V – китайский прорыв в создании видео!

Привет, друзья! Сегодня хочу поделиться с вами невероятно крутой новинкой из мира нейросетей. Познакомьтесь с Step-Video-T2V – новым опенсорс видеогенератором из Китая, который буквально взрывает представления о том, как можно создавать видео по текстовым запросам.

🔥 Что это за зверь?

Step-Video-T2V – это текстово-видео модель с 30 миллиардами параметров , способная генерировать видео длиной до 204 кадров с разрешением 544x992 пикселей . Модель использует передовые технологии для сжатия видео и обработки данных, что делает её одной из самых мощных и эффективных на сегодняшний день.

🌟 Чем она отличается от конкурентов?

✅ Масштабируемость: Поддерживает как английский, так и китайский языки, что делает её универсальной для международного использования, даже русский как-то понимает.

✅ Глубокое сжатие видео (Video-VAE): Благодаря уникальной технологии Video-VAE, модель достигает сжатия видео в 16x16 пространственно и 8x временно , сохраняя при этом высокое качество воспроизведения.

✅ Direct Preference Optimization (DPO): В финальной стадии обучения применяется DPO – метод, основанный на предпочтениях пользователей, чтобы сделать видео более реалистичными и минимизировать артефакты.

✅ Высокая производительность: Для работы модели требуется 80 ГБ VRAM , но результаты того стоят: генерация занимает всего 743 секунды с использованием flash-attention.

🛠 Как начать использовать Step-Video-T2V?

Регистрация доступна прямо сейчас! Просто переходите на официальный сайт проекта:

Для входа потребуется только ваш номер телефона (код приходит даже на российские номера через Telegram или SMS).

Если вы хотите использовать модель локально или интегрировать её в свои проекты, загрузите код и веса с GitHub или Hugging Face:

Ждем когда модель ужмут до 24 гигов, а пока насилуем китайский сервер, там очередь уже 200 человек каждый раз 👀

Скидывайте то, что у вас получается в комментарии к посту 👇

Источник – Nerual Dreming

15
11 комментариев