Factorio присоединяется к списку игр, используемых в качестве инструментов бенчмаркинга искусственный интеллект
Factorio, сложная компьютерная игра, ориентированная на строительство и управление ресурсами, стала новейшим инструментом исследователей для оценки возможностей искусственного интеллекта. Игра проверяет способность языковых моделей планировать и создавать сложные системы, управляя множеством ресурсов и производственных цепочек.
Учебная среда Factorio (FLE) предоставляет два различных режима тестирования. "Лабораторная игра" включает 24 структурированных задания с конкретными целями и ограниченными ресурсами, начиная от простых сборок на двух машинах и заканчивая сложными заводами, насчитывающими почти 100 машин. В режиме "Открытой игры" агенты искусственного интеллекта исследуют процедурно сгенерированные карты с одной целью: построить как можно большую фабрику.
Система работает через Python API, который позволяет агентам генерировать код для действий и проверять состояние игры. Эта настройка проверяет способность языковых моделей синтезировать программы и управлять сложными системами. API предоставляет функции для размещения и подключения компонентов, управления ресурсами и мониторинга прогресса производства.
Для измерения успеха исследователи оценивают производительность агентов, используя два ключевых показателя: "Производственный показатель", который вычисляет общую стоимость выпуска и экспоненциально увеличивается по мере усложнения производственной цепочки, и "Контрольные точки", которые отслеживают важные достижения, такие как создание новых предметов или исследование технологий. Экономическое моделирование игры учитывает такие факторы, как нехватка ресурсов, рыночные цены и эффективность производства.
Claude 3.5 Sonnet возглавляет исследовательскую группу
Исследовательская группа, в которую входит ученый-антрополог, оценила шесть ведущих языковых моделей в среде FLE: Claude 3.5 Sonnet, GPT-4o и GPT-4o mini, DeepSeek-V3, Gemini 2.0 Flash и Llama-3.3-70B-Instruct. Модели больших рассуждений (LRM) не были включены в этот раунд тестирования, хотя предыдущие бенчмаркинги предполагают, что такие модели, как o1, демонстрируют превосходные возможности планирования, несмотря на их собственные ограничения.
Тестирование выявило значительные проблемы для оцениваемых языковых моделей, особенно в области пространственного мышления, долгосрочного планирования и исправления ошибок. При строительстве заводов агенты искусственного интеллекта испытывали трудности с эффективной расстановкой и подключением машин, что приводило к неоптимальным планировкам и узким местам в производстве.
Стратегическое мышление также оказалось сложной задачей. Модели последовательно ставили краткосрочные цели выше долгосрочного планирования. И хотя они могли справиться с базовым устранением неполадок, они часто давали сбои, сталкиваясь с более сложными проблемами, и оказывались в ловушке неэффективных циклов отладки.
Среди протестированных моделей Claude 3.5 Sonnet показала самую высокую производительность, хотя и не смогла справиться со всеми задачами. В режиме лабораторной игры Claude успешно выполнил 15 из 24 заданий, в то время как конкурирующие модели решили не более 10. Во время тестирования Open Play Claude 3.5 Sonnet набрал 2456 баллов, за ним следует GPT-4o с 1789 баллами.
Claude продемонстрировала сложный игровой процесс Factorio благодаря своему стратегическому подходу к производству и исследованиям. В то время как другие модели оставались сосредоточенными на базовых продуктах, Claude быстро перешла к сложным производственным процессам. Ярким примером стал переход компании на технологию электродрели, что привело к существенному увеличению объемов производства листового железа.
Исследователи предполагают, что открытый и масштабируемый характер FLE делает его ценным для тестирования будущих, потенциально более эффективных языковых моделей. Они отмечают, что модели рассуждений еще не были оценены, и предлагают расширить среду, включив в нее многоагентные сценарии и тесты производительности человека для улучшения контекста.
Эта работа дополняет растущую коллекцию игровых тестов искусственного интеллекта, включая BALROG collection и предстоящий MCBench, который будет тестировать модели с использованием зданий Minecraft. Предыдущие достижения в области искусственного интеллекта в играх включали системы OpenAI, которые побеждали профессиональные человеческие команды.
Краткие сведения
- Исследователи протестировали передовые языковые модели искусственного интеллекта, в том числе Claude 3.5 Sonnet и GPT-4o, используя среду обучения Factorio — сложный сценарий моделирования, основанный на популярной строительной игре Factorio.
- Даже у самых высокопроизводительных моделей искусственного интеллекта были значительные проблемы с пространственным мышлением, долгосрочным планированием и исправлением ошибок, что подчеркивает текущие ограничения в этих областях.
- Claude 3.5 Sonnet показал лучшие результаты, успешно выполнив 15 из 24 структурированных заданий, в то время как конкурирующие модели выполнили максимум 10 заданий; модели больших рассуждений (LRM) еще не были включены в исследование.