Claude 3.7 Sonnet прошла игру Pokémon Red во время трансляции на Twitch

Предыдущая версия 3.5 Sonnet не смогла этого сделать — у неё не было возможности «рассуждений».

  • Компания Anthropic провела стрим Claude Plays Pokemon на Twitch: рассуждающая модель Claude 3.7 Sonnet играла в игру Pokémon Red для консоли Game Boy 90-х годов.
  • Модели дали возможность управлять приставкой. В левой части экрана отображались «мысли» Claude, а в правой — его действия в игре.
Источник: Anthropic 
Источник: Anthropic 
  • ИИ долго рассуждал, прежде чем выполнить простые манипуляции: потратил девять минут, чтобы дойти до начала первого маршрута, не мог понять, как обойти каменную стену и найти профессора Оука среди других неигровых персонажей.

Заметил, что ниже появился новый персонаж с чёрными волосами и, похоже, в белом халате. Возможно, это профессор Оук! Сейчас спущусь и поговорю с ним.

Так «подумал» Claude, но заговорил не с тем NPC, пишет TechCrunch.
Игра Claude ускорена в 16 раз. «Девять минут и куча мыслей, чтобы добраться от лаборатории Оука до начала первого маршрута! Заняло бы десять секунд у человека», — написал зритель. Источник: Paul Calcraft 
  • Однако за несколько часов Claude 3.7 Sonnet дошёл до финальной битвы и победил трёх лидеров спортзалов, получив их значки. Предыдущая Claude 3.5 Sonnet не смогла этого сделать. Во время тестов в 2024 году она отказывалась участвовать в сражениях и запрашивала перезапуск игры.
На графике видно, что Claude 3.7 Sonnet дошла до последнего уровня, выполнив 35 тысяч действий. Предыдущие модели не прошли и половины. Источник: Anthropic 
На графике видно, что Claude 3.7 Sonnet дошла до последнего уровня, выполнив 35 тысяч действий. Предыдущие модели не прошли и половины. Источник: Anthropic 
  • При этом Claude «не обучали играть в игры». Компания считает, что это «проблески» ИИ, который, благодаря рассуждениям, решает задачи «более компетентно» — без необходимости специально тренировать модель.

24 февраля 2025 года Anthropic представила модель Claude 3.7 Sonnet с двумя режимами: стандартным и «расширенным» — с долгими рассуждениями. Они доступны пользователям бесплатных тарифов.

51
104
7
1
2
1
130 комментариев