Microsoft выпускает демо-версию Quake II, которую ИИ генерирует в режиме реального времени

Microsoft представила исследовательский проект, который полностью запускает Quake II на основе ИИ можели, создающей геймплей режиме реального времени.

Модель под названием WHAMM (World and Human Action MaskGIT Model), является частью Microsoft Copilot Labs и предназначена для изучения возможностей и границ генеративного искусственного интеллекта в интерактивных средах. Она основана на более ранней версии, WHAM-1.6B, которая была обучена в игре Bleeding Edge. Эта модель производила всего около одного кадра в секунду.

WHAMM значительно повышает производительность, генерируя более десяти кадров в секунду — этого достаточно для поддержки интерактивности в режиме реального времени внутри самой модели. WHAMM и WHAM-1.6B являются частью семейства моделей Microsoft “Muse", которое специализируется на инструментах искусственного интеллекта для разработки игр.

Обучение с существенно меньшим объемом данных

Одним из ключевых нововведений WHAMM является его способность извлекать уроки из гораздо меньшего количества данных. В то время как WHAM-1.6B обучалась семи годам игрового процесса, для WHAMM потребовалась всего одна неделя игрового процесса Quake II, собранного из одного уровня. Набор данных, собранный профессиональными тестировщиками, предлагает целевые и высококачественные примеры, которые позволяют модели эффективно изучать поведение в игре.

WHAMM также использует другую техническую стратегию. Вместо использования метода авторегрессии, используемого WHAM-1.6B, где токены изображений генерируются по одному, WHAMM реализует стратегию MaskGIT. Такой подход позволяет модели генерировать все маркеры изображений параллельно в течение нескольких итераций. В результате скорость генерации значительно возросла, а выходное разрешение удвоилось, увеличившись с 300 × 180 пикселей до 640 × 360 пикселей.

Microsoft выпускает демо-версию Quake II, которую ИИ генерирует в режиме реального времени

Система WHAMM работает в три этапа: сначала она преобразует изображения в токены с помощью ViT-VQGAN. Затем магистральный преобразователь предсказывает, что должно произойти, на основе контекста. Наконец, усовершенствованный преобразователь улучшает предсказанные токены изображений с помощью нескольких итераций

Архитектура WHAMM состоит из двух основных компонентов. Первый - это “магистральный” трансформатор с примерно 500 миллионами параметров, который генерирует исходные прогнозы изображения. Второй модуль представляет собой модуль “уточнения” меньшего размера с 250 миллионами параметров, который итеративно улучшает результат. Для создания каждого нового кадра модель использует предыдущие девять пар изображение-действие в качестве контекста.

В демо-версии для воспроизведения представлены текущие возможности

Quake 2 нейросетью Luma, сгенерировано через KolerskyAI

Созданная искусственным интеллектом версия Quake II, доступная для тестирования здесь, поддерживает основные взаимодействия, такие как перемещение, прыжки, стрельба и размещение объектов. Симуляция также сохраняет изменения, внесенные в окружающую среду, и позволяет игрокам исследовать скрытые участки уровня.

Хотя WHAMM поддерживает базовый игровой процесс, она не полностью воспроизводит оригинальную Quake II. Модель генерирует приблизительное описание среды на основе ограниченного набора обучающих данных, что приводит к ряду технических ограничений.

Персонажи противника выглядят визуально размытыми, бою не хватает реалистичности, а показатели здоровья ненадежны. Объекты исчезают со сцены, если они остаются за кадром более 0,9 секунды — предел контекстного окна модели. Игровая зона ограничена одним сегментом уровня, и симуляция зависает, как только этот раздел заканчивается. Задержка ввода также остается высокой, с заметными задержками между вводом данных игроком и реакцией системы.

Новые инструменты для разработки игр на основе искусственного интеллекта

WHAMM является частью более широкого набора недавних инициатив, изучающих, как генеративный ИИ может быть применен при разработке игр. Другие примеры включают GameGen-O, которая фокусируется на создании симуляций открытого мира, а также GameNGen и DIAMOND —системы от Google и Deepmind, которые имитируют игровой процесс для таких игр, как DOOM и Counter-Strike. Хотя эти модели представляют собой значительный прогресс, они по-прежнему сталкиваются с техническими ограничениями, включая низкое разрешение, ограниченную память и сниженную осведомленность о контексте.

Игровая индустрия особенно склонна к внедрению генеративного искусственного интеллекта, поскольку он объединяет множество дисциплин — код, дизайн, повествование и мультимедиа — в рамках циклов разработки, которые часто ограничены жесткими бюджетами и сроками. Такое сочетание творческой сложности и нехватки ресурсов делает производство игр особенно восприимчивым к инструментам, которые могут частично автоматизировать структурированные задачи.

4
2
1
3 комментария